當前位置： 18183首頁 > 游戲新聞 > 數碼科技 >

開源后人人都有不下“呂布”之勇！阿里推出全新模型：媲美DeepSeek R1！

來源：未知

責任編輯：芭娜娜

發布時間：2025-03-06 13:38:17

今天，阿里巴巴通義千問團隊扔出了一枚"重磅炸彈"——正式推出僅320億參數的QwQ-32B大語言模型。這個看似中等體量的模型，竟在多項關鍵指標上追平甚至超越了頂尖模型DeepSeek-R1。

從官方披露的數據來看，QwQ-32B的突破主要源于強化學習技術的創新應用。研發團隊摒棄了傳統獎勵模型，轉而通過分階段訓練策略：先用數學題答案驗證和代碼測試執行結果作為反饋，夯實基礎推理能力;再引入通用獎勵模型擴展綜合實力。這種"精準投喂"的調教方式，讓模型在參數量僅為對手1/21的情況下，不僅保住了性能基準線，還把推理成本壓縮到十分之一。有網友實測發現，該模型在筆記本電腦上就能流暢運行，思考過程還能實時可視化，這性價比直接拉滿。

在權威評測中，QwQ-32B展現出了"以小搏大"的硬實力。面對被稱為"LLM終極考場"的LiveBench榜單，它不僅以72.5分反超DeepSeek-R1的70分，更以0.25美元的成本遠低于對手2.5美元的推理開銷。在代碼生成、數學解題等專項測試中，其表現甚至優于部分專門優化的蒸餾模型。最令人驚喜的是，它還能像人類一樣在使用工具時進行"自我糾錯"，根據環境反饋動態調整推理路徑。

開源后人人都有不下“呂布”之勇！阿里推出全新模型：媲美DeepSeek R1！