2025年,“推理模型”成為人工智能行業的熱詞。從科大訊飛發布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。
多數大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創新的技術為行業發展注入新活力,也讓人們對人工智能未來發展有了更大想象空間。
推理模仿人類“慢思考”
在復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰術”可以實現,而是需要大模型具備強大的思維能力。
心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。
作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。
傳統大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數據進行學習,實現對后續空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據特定思維鏈條,提供更全面解答。
科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數學、醫學、代碼等領域,會產生更好的效果和意想不到的應用場景。
強化學習實現反思糾錯
人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。
強化學習是一種機器學習方法,它允許智能體在與環境的交互中通過試錯來學習最優策略。智能體在環境中執行相應行動,并根據行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環往復,不斷接近最優策略。
例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據模型輸出答案的優劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。
殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發現幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數學題目時,不僅會實時呈現分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數據也可以被用于后續的強化學習。
可靠算力仍是關鍵因素
無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩定性仍然是決定推理模型發展的重要因素。
此前,科大訊飛已聯合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰。
“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數據及權重,訓練任務類型也由在線實時響應變為離線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數量級。最終,通過與華為進行聯合攻關,團隊自研出訓練框架并進行效率優化,實現了模型算法在國產算力上的成功適配,端到端效率大幅提升。
2025年,“推理模型”成為人工智能行業的熱詞。從科大訊飛發布首個使用全國產算力訓練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。
多數大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業內人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創新的技術為行業發展注入新活力,也讓人們對人工智能未來發展有了更大想象空間。
推理模仿人類“慢思考”
在復旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰術”可以實現,而是需要大模型具備強大的思維能力。
心理學家認為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經驗、常識等,對簡單問題作出的快速反應,往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。
作為人工智能的典型應用,大模型如今也有了“快”“慢”之別。
傳統大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數據進行學習,實現對后續空白內容的快速預測,回答人類提出的各類問題,本質上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據特定思維鏈條,提供更全面解答。
科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數學題等復雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現出全面的思考、分析和推理過程,進而給出準確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數學、醫學、代碼等領域,會產生更好的效果和意想不到的應用場景。
強化學習實現反思糾錯
人類可以對復雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結果和正確經驗的反饋學習,人類得以不斷提升對復雜問題判斷的正確率。推理模型中普遍應用的強化學習技術,在一定程度上模仿了人類的反思、糾錯能力。
強化學習是一種機器學習方法,它允許智能體在與環境的交互中通過試錯來學習最優策略。智能體在環境中執行相應行動,并根據行動的結果接收反饋,這些反饋信號則指導智能體調整下一步策略,循環往復,不斷接近最優策略。
例如,DeepSeek-R1在訓練推理模型時采用了一條此前鮮有人使用的完全依賴強化學習的訓練路徑,即僅根據模型輸出答案的優劣等簡單信息,對模型進行獎懲。這相當于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據探索結果給予反饋,從而讓幼兒在反復試錯和成功中快速成長。
殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現自我完善提升。同時,評語模型也通過強化訓練進一步提升自身發現幻覺問題的能力。整個過程無需人員參與標注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學習技術使訊飛星火X1中能化繁為簡,把復雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數學題目時,不僅會實時呈現分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數據也可以被用于后續的強化學習。
可靠算力仍是關鍵因素
無論是模型訓練還是推理,都需要算力平臺作為硬件基礎。雖然在特定領域,推理模型能夠在實現同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩定性仍然是決定推理模型發展的重要因素。
此前,科大訊飛已聯合華為打造出首個國產算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓練。但推理模型的訓練是一條全新的技術路線。目前,國產算力在單卡、集群、生態等方面距國際領先水平有一定差距,全面基于國產算力平臺開展模型訓練,面臨著不少挑戰。
“訊飛星火X1的訓練推理涉及多個模型的強交互,需要跨任務傳輸數據及權重,訓練任務類型也由在線實時響應變為離線高吞吐。這需要克服國產顯卡帶寬不足的短板。”殷兵說,在這種復雜的訓練模式下,影響效率的因素非常多,后訓練所需的算力甚至提升了一個數量級。最終,通過與華為進行聯合攻關,團隊自研出訓練框架并進行效率優化,實現了模型算法在國產算力上的成功適配,端到端效率大幅提升。
本文鏈接:http://m.020gz.com.cn/news-2-562-0.html推理模型:“慢思考”讓決策更周全
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕