李飛飛團隊嘗試將模型成本“打下來”的背后,開源、數據和技術的突破都是關鍵環節。
近日,有消息稱,華裔科學家、“AI教母”李飛飛的團隊研究人員以不到50美元的費用訓練了一個能力比肩DeepSeek-R1的s1模型。記者從相關人士處了解到,這個s1模型的訓練并非從零開始,而是基于阿里云通義千問(Qwen)模型進行監督微調。
李飛飛團隊發表的公開論文顯示,基于 Qwen2.5-32B-Instruct 語言模型進行監督微調后的 s1-32B 模型,在競賽數學問題上的表現超過了 o1-preview,最高提升了 27%(MATH 和 AIME24), 取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果。這個過程中,李飛飛團隊主要使用了一個包含 1000 個問題及其推理軌跡的小型數據集 s1K并開發了預算強制(budget forcing)技術延長模型思考,以超低成本構建了一個高質量模型。
如何用最簡單的方法實現模型測試時擴展(即允許人工智能模型在回答問題之前進行更多思考)和強大推理性能?李飛飛團隊嘗試將模型成本“打下來”的背后,開源、數據和技術的突破都是關鍵環節。
如何實現?
從技術的角度來看,李飛飛團隊證明的是數據樣本的高質量以及簡單的測試時間擴展可能帶來的模型訓練效率大幅提升。
根據公開論文,研究團隊首先構建了一個由 1000 個經過精心篩選的問題組成的 S1K 數據集,這些問題配有從 Gemini Thinking Experimental提煉出的推理過程和答案。基于這個數據集,對Qwen2.5-32B-Instruct 語言模型進行監督微調,李飛飛團隊僅在 16 個 H100 GPU 上花 26 分鐘完成了模型訓練。
事實上,這僅包含1000個問題的數據集遠低于行業通常的大模型訓練數據量,李飛飛團隊印證的是高質量、高難度和多樣性數據所帶來的強大“張力”。研究人員首先遵循質量、難度和多樣性三個原則從16個不同的來源收集來59029個問題,包括現有的數學問題數據集、以及研究人員自己創建的概率問題集、腦筋急轉彎問題集,再進行樣本檢查、篩選掉格式不佳的數據集,選擇推理鏈路長的問題,才最終創建了這個包含50個不同領域的小數據集。
2024年,李飛飛曾在接受媒體采訪時反駁“人工智能模型正在耗盡用于訓練的數據”這一觀點,她認為當前AI訓練數據并不存在短缺的問題,仍有大量的差異化的數據等待挖掘。她強調的是,高質量數據正變得前所未有的重要,創建高質量的數據集是人工智能研究的核心。
另一方面,李飛飛團隊還在S1模型的訓練中開發了一項 “預算強制” 技術來控制模型在測試時所花費的計算量,來影響模型的推理深度和最終答案。
簡單來說,這個“預算強制”分為兩種情況:若模型生成的推理token超過設定的上限,則強制結束推理過程,并附加思維結束(end-of-thinking)token,促使模型進入答案生成階段。若希望模型在問題上投入更多測試時計算資源,則抑制思維結束token的生成,并在推理軌跡中追加 「Wait」,鼓勵模型進行更深入的推理探索。研究團隊表示,他們驗證了這種方法還可以使模型重新檢查其答案,通常能修正錯誤的推理步驟,提高推理性能。
目前,s1模型及其訓練數據和代碼已在GitHub上開源,研究團隊表示,他們希望能夠激發未來關于簡單推理的研究。
開源大模型的進擊
隨著大模型“燒錢”的降溫,如何用更低的成本訓練高性能模型,正在成為業內的關注重心之一。
與李飛飛團隊所做的“監督微調”不同的是,此前,DeepSeek在發布DeepSeek-R1時,還通過 DeepSeek-R1 的輸出,蒸餾了 6 個小模型開源給社區。DeepSeek表示,基于Qwen-32B和Llama-70B蒸餾的模型,在多項能力上實現了對標 OpenAI o1-mini 的效果。
一位業內人士對記者表示,無論是李飛飛團隊提煉精華數據在Qwen上做監督微調,還是DeepSeek的蒸餾,即將DeepSeek-R1 作為教師模型,把Qwen作為學生模型,將教師模型的能力蒸餾給學生模型,都實現了新模型的高性能。這是兩種不同的技術路線,但都降低了高性能模型的訓練成本。
伴隨著DeepSeek的火爆和s1模型基于通義千問監督微調的低成本訓練,開源大模型對行業格局的影響正在加深。根據開源社區HuggingFace的數據統計,海內外開源社區中Qwen的衍生模型數量已突破9萬,2024年,僅視覺理解Qwen-VL及Qwen2-VL兩款模型全球下載量就突破3200萬次。大模型開源生態正在迅速發展中。
在模型訓練“性價比”受關注的當下,開源大模型正在給閉源大模型帶來持續挑戰。廣發證券研究指出,隨著DeepSeek全球下載量登頂,基于R1的完全開源,API服務定價遠低于OpenAI,海外市場總體認為,訓練和推理成本下降可能帶來更快的創新、模型的普及,以及更多推理需求。同時,算力的敘事會受到一定影響,開源和閉源模型性能差距的縮小可能對基礎模型開發公司(閉源)帶來挑戰,因為更便宜的開源選項會吞噬市場需求。
而隨著更多開源大模型的發展以及模型訓練技術、數據質量提升的探索,行業的更多玩家也將受到影響。廣發證券同時提到,未來,大模型成本、效率的提升可能給AI應用類公司帶來利好,因為這類公司正在尋求機會在LLM(大語言模型)以及新模型的基礎上開發產品,因此成本效率提升會帶來這些公司資本回報率的回升。此外,云廠商間的競爭也在加速關注DeepSeek等開源大模型的生態服務,搶食開源大模型算力需求。
在這場大模型技術“普惠”與技術升級的多徑賽跑上,更多DeepSeek、s1般的故事正被業界期待,也將有更多快速迭代、追趕的壓力給到從業者。