今天,阿里巴巴通義千問團隊扔出了一枚"重磅炸彈"——正式推出僅320億參數的QwQ-32B大語言模型。這個看似中等體量的模型,竟在多項關鍵指標上追平甚至超越了頂尖模型DeepSeek-R1。
從官方披露的數據來看,QwQ-32B的突破主要源于強化學習技術的創新應用。研發團隊摒棄了傳統獎勵模型,轉而通過分階段訓練策略:先用數學題答案驗證和代碼測試執行結果作為反饋,夯實基礎推理能力;再引入通用獎勵模型擴展綜合實力。這種"精準投喂"的調教方式,讓模型在參數量僅為對手1/21的情況下,不僅保住了性能基準線,還把推理成本壓縮到十分之一。有網友實測發現,該模型在筆記本電腦上就能流暢運行,思考過程還能實時可視化,這性價比直接拉滿。
在權威評測中,QwQ-32B展現出了"以小搏大"的硬實力。面對被稱為"LLM終極考場"的LiveBench榜單,它不僅以72.5分反超DeepSeek-R1的70分,更以0.25美元的成本遠低于對手2.5美元的推理開銷。在代碼生成、數學解題等專項測試中,其表現甚至優于部分專門優化的蒸餾模型。最令人驚喜的是,它還能像人類一樣在使用工具時進行"自我糾錯",根據環境反饋動態調整推理路徑。
這波操作背后的技術路徑確實讓人眼前一亮。當行業還在為"萬億參數俱樂部"的門檻爭得頭破血流時,阿里選擇用強化學習深挖模型潛力,某種程度上打破了"參數即正義"的固有認知。正如業內人士評價,這種中等規模模型的高效表現,既為開源社區提供了新思路,也降低了企業部署AI的門檻。
目前該模型已在Hugging Face和ModelScope雙平臺開源,普通用戶通過Qwen Chat就能直接體驗。