日本高清中文字幕一区二区三区a-日本高清专区一区二无线-日本高新1区2区3区-日本国产亚洲-操操操综合网-操操久久

推理模型:“慢思考”讓決策更周全

2個月前 來源:科技日報 觀看:11

2025年,“推理模型”成為人工智能行業的熱詞。從科大訊飛發布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

多數大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創新的技術為行業發展注入新活力,也讓人們對人工智能未來發展有了更大想象空間。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”8ad即熱新聞——關注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰術”可以實現,而是需要大模型具備強大的思維能力。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

傳統大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數據進行學習,實現對后續空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據特定思維鏈條,提供更全面解答。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數學、醫學、代碼等領域,會產生更好的效果和意想不到的應用場景。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習實現反思糾錯8ad即熱新聞——關注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環境的交互中通過試錯來學習最優策略。智能體在環境中執行相應行動,并根據行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環往復,不斷接近最優策略。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據模型輸出答案的優劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發現幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數學題目時,不僅會實時呈現分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數據也可以被用于后續的強化學習。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

可靠算力仍是關鍵因素8ad即熱新聞——關注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩定性仍然是決定推理模型發展的重要因素。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數據及權重,訓練任務類型也由在線實時響應變為離線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數量級。最終,通過與華為進行聯合攻關,團隊自研出訓練框架并進行效率優化,實現了模型算法在國產算力上的成功適配,端到端效率大幅提升。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

2025年,“推理模型”成為人工智能行業的熱詞。從科大訊飛發布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

多數大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創新的技術為行業發展注入新活力,也讓人們對人工智能未來發展有了更大想象空間。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

推理模仿人類“慢思考”8ad即熱新聞——關注每天科技社會生活新變化gihot.com

在復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰術”可以實現,而是需要大模型具備強大的思維能力。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

傳統大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數據進行學習,實現對后續空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據特定思維鏈條,提供更全面解答。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數學、醫學、代碼等領域,會產生更好的效果和意想不到的應用場景。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習實現反思糾錯8ad即熱新聞——關注每天科技社會生活新變化gihot.com

人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

強化學習是一種機器學習方法,它允許智能體在與環境的交互中通過試錯來學習最優策略。智能體在環境中執行相應行動,并根據行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環往復,不斷接近最優策略。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據模型輸出答案的優劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發現幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數學題目時,不僅會實時呈現分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數據也可以被用于后續的強化學習。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

可靠算力仍是關鍵因素8ad即熱新聞——關注每天科技社會生活新變化gihot.com

無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩定性仍然是決定推理模型發展的重要因素。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

此前,科大訊飛已聯合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數據及權重,訓練任務類型也由在線實時響應變為離線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數量級。最終,通過與華為進行聯合攻關,團隊自研出訓練框架并進行效率優化,實現了模型算法在國產算力上的成功適配,端到端效率大幅提升。8ad即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://m.020gz.com.cn/news-2-562-0.html推理模型:“慢思考”讓決策更周全

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇:新疆哈密上線 “滿血版”DeepSeek-R1云服務

下一篇:新裝置解決石油產業抽油桿防銹難題 油田小站捧回國際大獎

為你推薦
近日,完美世界(002624.SZ)發布2024年度業績預告。預告顯示,完美世界去年全年預計實現營業收入55億元至56億元,預計歸母凈利潤為虧損11...
01-21
從“繳納貓稅”(海外用戶發布寵物照片)到互相請教數學/英語,再到對工作時間、生活方式的提問,小紅書無疑是國內外這幾天最受關注的幾...
01-21
  遼寧省統計局今天發布2024年全省經濟運行情況。數據顯示,攻堅之年,遼寧生產需求持續改善,居民收入穩步...
01-21
  為宣傳推廣我省紡織服裝地產品牌,充分展示優質紡織服裝實力,日前,由省工信廳、省紡織服裝協會、新華集...
01-27
  2025年春運開始于1月14日,至今第一輪購票高峰已經過去。由于火車票有提前15天開始發售的規則,春運第一天的火車票在2024年12月31日就已經開始發售,鐵路12306的監控中心...
01-21
  正月初七返程火車票今日開搶,預計當天為節后客流高峰日  正月初七返程火車票今日開搶!  1月21日,按照鐵路車票預售期,旅客可以購買2月4日(正月初七)的火車票。2025年鐵...
01-21
1 月 21 日消息,長期以來,特斯拉一直是電動汽車領域的無可爭議的霸主,其產量和銷量遠超競爭對手。然而,來自中國競爭對手的威脅正在逐漸顯現,尤其是比亞迪正迅速追趕特斯...
01-22
2 月 6 日消息,汽車媒體 carscoops 今天(2 月 6 日)發布博文,報道稱捷豹 I-Pace 電動 SUV 曾被寄予厚望,但近年來因電池問題頻繁召回,導致大量車輛被報廢。捷豹公司已在美...
02-06
《六姊妹》老四最后結局是什么?老四為什么進監獄??《六姊妹》中老四何家歡的最后結局是入獄?。何家歡從小時候的煙花意外到后來的牢獄之災,經歷了太多起起落...
02-21
《韓國制造》第一季近期成為追劇黨熱議的話題,該劇在各大短視頻平臺上的熱度持續攀升。這部備受期待的韓劇計劃于2025年下半年與觀眾見面,因其強大的演員陣容...
02-22
  編者按:春節臨近,年味愈濃。紅彤彤的糖葫蘆,酸甜交織的滋味在舌尖綻放;家中盛放的年宵花,寄托著...
01-23
這里是《21健訊Daily》,歡迎與21世紀經濟報道新健康團隊共同關注醫藥健康行業最新事件!政策動向2025年版流感診療方案發布1月22日,國家衛生健...
01-24
  大眾網記者 司心鵬 通訊員 劉振 盛鳳娟 報道  近日,2024年職業院校技能大賽各賽項圓滿收官,山東水利職業學院在本年度賽事中表現卓越,成績斐然。在世界職業院校技能大...
01-21
  大眾網記者 司心鵬 報道  4月1日,華為ICT大賽2023—2024全國總決賽成績公布,山東商業職業技術學院云計算技術與應用產業學院學生團隊獲得昇騰AI賽道國賽二等獎2項,計...
01-21
  近日,由元保集團(以下簡稱“元?!保┖颓迦A大學五道口金融學院中國保險與養老金融研究中心聯合...
01-22
     周二(2月4日)紐約時段,現貨黃金明顯走強沖破2840關口,刷新了前一日錄得的歷史記錄。  ...
02-05
雙魚座的男生通常都是浪漫而敏感的,當他們想念某個人時,會有一系列特別的行為和反應。下...
01-22
天蝎座男性通常被認為是神秘、獨立和富有魅力的人。如果你想讓一個天蝎座男性對你死心...
01-22
精彩紛呈的男裝T臺走秀:時尚與藝術的完美交融在時尚界,T臺走秀是一場視覺盛宴,不僅是品牌展示新季服裝的機會,更是模特與設計師藝術靈感的碰撞。今天,我想和大家分享一些關于男裝...
02-07
女明星穿衣出現意外:時尚背后的尷尬瞬間在這個充滿光鮮亮麗的娛樂圈,**女明星**的穿衣風格備受矚目。每一次紅毯事件,不僅是對她們時尚品味的考驗,更是一個個可能出現尷尬瞬間的...
02-17
2月5日消息,微信團隊發布2025春節數據報告《微信里的賽博年味兒》,展示基于除夕至初五的多項數據。春節期間,微信里共誕生了1億+款用戶自己創作的紅包封面,約有3.9億人收到含有...
02-07
2月5日消息,蘇寧易購發布的春節消費大數據顯示:春節期間,本地以舊換新消費需求進一步擴大,蘇寧易購門店迎來銷售“小高峰”,全國門店客流同比提升80%,以舊換新訂單量同比增長92%。...
02-07
2月5日消息,滴滴出行數據顯示,春節假期期間,打車完單量同比去年上漲17%,其中異地打車(非常駐地打車)需求相比年前上漲60%。入境用戶在國內使用滴滴的打車完單量同比去年上漲80%。...
02-07
2月22日消息,美團自營大藥房近日再次升級異地訂單快遞物流服務。美團數據顯示,在剛剛過去的流感季,美團自營大藥房已實現90%以上訂單“當日或次日達”,美團也是在醫藥電商領域首...
02-23
【#平安產險成立軒坤股權投資合伙企業# 出資額100億】天眼查App顯示,近日,嘉興軒坤股權投資合伙企業(有限合伙)成立,執行事務合伙人為平安創贏資本管理有限公司,出資額100億人民幣...
01-21
2024年末,一位科技創業者火了。作者 | 王思琪來源 | 投資家(ID:touzijias)2024年末,一位科技創業者火了。2025年初,這位創業者再度爆火。近日,中國科技行業因一位85后年輕人現身《...
01-24
改編自韓國條漫《我獨自升級》的同名動畫,目前正在熱播第二季內容,以“爽文”風格為核心的本作在播出后受到了許多觀眾的喜愛,其第二季目前已獲得了眾多好評。 ...
01-24
著名復古掌機改裝大佬 Hairo Satoh 最近成功的將一部 DS 掌機塞進了原版 Game Boy 掌機的外殼當中。 他展示了主機,它不僅能讀取正版卡帶,而且還有一個藏在主機...
01-28
記者今天從國家郵政局了解到,今年春節假期,全國郵政快遞行業業務量保持良好增長態勢,攬收和投遞快遞包裹超19億件。國家郵政局數據顯示,1月28日至2月4日,全國攬收和投遞快遞包裹1...
02-05
營造清朗涉軍網絡輿論環境——解讀《互聯網軍事信息傳播管理辦法》的四大特點《互聯網軍事信息傳播管理辦法》(以下簡稱《辦法》),以習近平新時代中國特色社會主義思想為指導,全...
02-10
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕

主站蜘蛛池模板: 日日做夜夜爽夜夜爽 | 国产午夜精品久久久久免费视 | 免费免费啪视频视频观看 | 爱爱帝国亚洲一区二区三区 | 国产h视频在线观看网站免费 | 丁香五六月婷婷 | yy6080一级毛片高清 | 1024亚洲视频 | 32pao强力打造免费高速高清 | av72成人 | 国产精品色片 | 天天干天天在线 | 日本一区二区三区视频在线 | 大美女久久久久久j久久 | 国产色网站 | 男女视频在线观看 | 在线视频 二区 | 高h上错人1v1 | 性色欧美xo影院 | 成人a毛片高清视频 | 日本三级免费看 | 香蕉网影院在线观看免费 | h网站在线播放 | 88av视频在线观看 | 手机看片日本 | www.4虎影院| 日本一区二区视频在线观看 | 天天看天天干天天操 | 国产黄色大片又色又爽 | 91综合在线视频 | 日本亚洲卡一卡2卡二卡三卡四卡 | 波多野结衣在线观看一区二区三区 | 欧美性猛交xxxx乱大交 | 亚洲精品午夜视频 | caopon在线| 青楼社区51在线视频视频 | 最新亚洲一区二区三区四区 | 91大神精品视频 | 最近新韩国hd视频 | 日本三级全黄 | 影院成人区精品一区二区婷婷丽春院影视 |