AI教母李飛飛20美元打造AI模型
媲美OpenAI和DeepSeek

1 年前
AI教母李飛飛20美元打造AI模型
 媲美OpenAI和DeepSeek
字體大小
AAA
分享

有著「AI 教母」之稱,知名華裔美籍科學家李飛飛的研究團隊近日發布,他們成功打造出一個名為「s1-32B」的AI推理模型,該模型的部分能力可媲美openAI-o1及Deepseek-R1。而更令人震驚的是,訓練時間僅26分鐘,基本上只需花20美元、靠16個輝達(NVIDIA)H100 GPU即可。再度引起業內外人士的熱烈討論。

綜合外媒報道,李飛飛被譽為「AI教母」,這次由她領導的研究團隊所發表的研究論文《s1: Simple test-time scaling》指出,s1-32B模型在數學競賽類問題上的表現,甚至超越了OpenAI的o1預覽版,並秀出在MATH和AIME24數據集上的成績,比o1-預覽版高出27%之多。

對此,研究人員表示,s1-32B是基於阿里巴巴的開源模型的Qwen2.5-32B-Instruct,並透過監督式微調(SFT)訓練而成。他們在研究中提出了「預算控制」策略,透過加入「wait指令」等方式,強制延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

同時,李飛飛團隊的 s1 模型,採用了來自 Google 的推理模型 Gemini 2.0 Flash Thinking Experimental 的知識,並利用「蒸餾技術」改善其 AI 模型。蒸餾技術是一種模型壓縮方法,研究人員從一個大型、複雜的模型(稱為「教師模型」)中提取知識,再指導一個較小、較簡單的模型(即「學生模型」)進行學習。這樣,學生模型可以保持較高性能,同時顯著降低計算資源消耗。

s1-32B模型可視為Qwen2.5 和Google的Gemini 2.0 Flash Thinking Experimental結合體。但他們的訓練方式,可能違反了Google的使用條款。研究團隊利用精選的1000個問題和答案,記錄Gemini 2.0 Flash模型的「思考過程」,再用這些資料對Qwen2.5-32B-Instruct進行微調,這或許構成了對Google模型的逆向工程。對此,Google尚未做出回應。

《每日經濟新聞》指出,「s1-32B」是站在了「巨人肩膀」上,而李飛飛團隊的「低成本」並未涵蓋Qwen模型的訓練費用。復旦大學計算機學院副教授鄭驍慶表示,s1-32B的低成本訓練得益於基於現成的預訓練模型,而非從零開始訓練:微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。

他亦認為,大規模的數據可能不會成為下一步的必爭之地,其成本和產出之間的比例在慢慢壓縮,未來高品質數據的微調和強化學習未來將會有更多的投入。

他也質疑,論文中提到成本是否涵蓋了其他數據、設備和實驗的費用,這些都是非常燒錢的部分。儘管如此,s1-32B模型仍展現了卓越的樣本效率和推理能力,在特定測試集上明顯優於OpenAI的o1-preview。且Deepseek同樣也被質疑並非從零開始訓練,實際成本也未完全揭露。

這次李飛飛團隊的研究重點在於找到實現「測試時拓展」的最簡單方法,相較於Deepseek使用增強式學習,所需的龐大算力。李飛飛團隊的模型能夠在推理時進行多次迭代優化,生成高品質的答案,並花費更少成本。

記者:Cecila

閱讀更多:

美國議員提案下載DeepSeek定為犯罪 最高判監20年罰100萬美元

DeepSeek橫空出世震撼美國AI界 美國海軍禁全員私人及工作使用