-
TeleAI“復雜推理大模型”達競賽級數(shù)學表現(xiàn),評分超o1-preview
2025/1/26 13:54:44 來源:財訊網(wǎng) 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:近日,中國電信人工智能研究院(TeleAI)“復雜推理大模型”TeleAI-t1-preview正式發(fā)布,即將上線天翼AI開放平臺。TeleAI-t1-preview使用了強化學習訓練方法,通過引入探索、反思等思考范式,大幅提升模型在數(shù)學推導、邏輯推理等復雜問題的準確性。近日,中國電信人工智能研究院(TeleAI)“復雜推理大模型”TeleAI-t1-preview正式發(fā)布,即將上線天翼AI開放平臺。TeleAI-t1-preview使用了強化學習訓練方法,通過引入探索、反思等思考范式,大幅提升模型在數(shù)學推導、邏輯推理等復雜問題的準確性。早在1500多年前,數(shù)學家祖沖之就曾在《辯戴法興難新歷》中指出,復雜事物的運行規(guī)律并非超自然現(xiàn)象,而是可以通過實際觀測、數(shù)據(jù)推理而嚴謹求得。
數(shù)學知識的系統(tǒng)性和相互關聯(lián)性,以及通過推理找到問題根源,是幾千年來數(shù)學發(fā)展的母題。大模型的創(chuàng)新也正在不斷與之靠近,用嚴密的思維鏈路,擺脫幻覺的怪圈。
評分超o1-preview
達競賽級數(shù)學表現(xiàn)
在美國數(shù)學競賽AIME2024、MATH500兩項權威數(shù)學基準評測中,TeleAI-t1-preview分別以60和93.8分的成績,大幅超越OpenAIo1-preview、GPT-4o等標桿模型。在研究生級別問答測試GPQA Diamond中,TeleAI-t1-preview得分超過GPT-4o,并比肩Claude3.5Sonnet的性能水準。
在下面這道2024年全國高中數(shù)學競賽試題中,TeleAI-t1-preview面對三角函數(shù)的復雜等式關系,通過多次假設嘗試和思路糾偏,將原先的復雜等式抽絲剝繭,轉(zhuǎn)化成簡化的方程式,并經(jīng)過邏輯清晰的公式推導后,最終給出了正確答案。
可以看出,TeleAI-t1-preview在回答問題時并非只是給出結(jié)論,而是把思考和分析過程也完整呈現(xiàn)。這樣可以幫助學生在做題過程中深入理解題目背后的邏輯和思考方法。
例如,在一道概率論考研試題中,題目涉及“泊松分布”概念。TeleAI-t1-preview首先對這個概念進行了介紹和解讀,然后給出解題思路和最終答案。
我國古代數(shù)學發(fā)展歷史悠久,流傳眾多經(jīng)典著作,但因其文言文表述,通常讓人望而卻步。不少大模型也會陷入沉思,無法作答。
將《九章算術》中的一道題目給到TeleAI-t1-preview后,它先針對文言文進行了理解和簡化,轉(zhuǎn)換成現(xiàn)代漢語,隨之給出數(shù)學推導和答案。
在這個過程中,TeleAI-t1-preview還將形象思維與抽象思維結(jié)合,對所涉及的場景進行具象化思考,輔助理解題目。同時,它還嚴謹?shù)剡M行了古今單位換算,順利過關。
如果說數(shù)學競賽和考研題目還能符合人的正常思維方式,那么面對極度“燒腦”的策略推理問題時,以往的大模型往往會答非所問,被繞到“陷阱”中去。
以下面這道問題為例,光是理解游戲規(guī)則就已經(jīng)很難了,更不用說從何下手給出答案了。然而,TeleAI-t1-preview卻“眼都沒眨一下”就迅速破題,大膽假設,嚴謹分析。
TeleAI-t1-preview在解題過程中,列出了對游戲規(guī)則的理解、場景道具分析、優(yōu)劣勢分析,并給出解題策略、驗證有效性。不僅如此,它還考慮到了可能出現(xiàn)的特殊情況。
創(chuàng)新“訓練”策略
保障“推理”有效
人類通向AGI的旅程正在經(jīng)歷一場范式的迭代。當已有的高質(zhì)量數(shù)據(jù)正像化石能源一樣日漸枯竭時,當人們依然在為大模型的“黑盒”特性而擔憂時,復雜推理大模型的重要性日益顯著。
針對TeleAI-t1-preview訓練的不同階段,TeleAI引入了創(chuàng)新的訓練策略,從而保障思考推理過程準確有效。
數(shù)據(jù)準備階段:
收集、構(gòu)建了一個以數(shù)學為核心、多學科為補充的高質(zhì)量推理數(shù)據(jù)集,確保模型能夠適應不同類型的推理任務。
Judge Model(評估模型):
訓練了一個Judge Model專門用于分析和評估模型長思考鏈路的正確性,為模型的反思和錯誤修正提供指導。
SFT(監(jiān)督微調(diào))階段:
用MCTS(蒙特卡洛樹搜索)構(gòu)造高質(zhì)量長推理數(shù)據(jù),結(jié)合每個步驟的準確率和解決方案長度來選擇最優(yōu)的完整路徑,在保證推理答案準確性的同時有效拉長思考鏈路以獲得更細粒度的推理過程。同時使用Judge Model對推理過程中正確率較低的路徑進行分析,引導模型對錯誤的推理步驟進行反思和修正,從而構(gòu)造出高質(zhì)量的思維鏈數(shù)據(jù)進行SFT訓練。
強化學習階段:
額外構(gòu)造了Rule-based Reward Model(基于規(guī)則的獎勵模型),以提供足夠準確的獎勵信號,通過在線強化學習算法進一步提升模型的邏輯推理能力。
直觀呈現(xiàn)的思維鏈將幫助人們更清晰地追蹤推理過程,方便驗證推理正確性,從而使模型的可解釋性和透明度大大提升。
TeleAI將持續(xù)在推理模型領域研究探索,讓人工智能基于人類的“已知”,推導出期盼得到的“未知”。
鄭重聲明:本文版權歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯(lián)系我們修改或刪除,多謝。