近期,有關某知名人士的私生活再次引發了公眾的關注。各類吃瓜群眾紛紛涌入社交媒體,試圖揭露其背后的“黑料”。雖然這些信息尚未得到證實,但在網絡上迅速傳播,引發熱議。隨著越來越多的“爆料”浮出水面,人們對于真相的渴望似乎愈發強烈,只待時間來一一揭曉。
新京報貝殼財經訊(記者羅亦丹)北京時間3月6日清晨,通義千問在官方公號上發文稱,推出最新的推理模型 QwQ-32B。這是一款具有320億參數的模型,其功用可與具有6710億參數(其間370億被激活)的 DeepSeek-R1比美。
通義千問表明,強化學習可以明顯進步模型的推理才能。例如,DeepSeek-R1 通過整合冷啟動數據和多階段練習,完成了最先進的功用,使其可以進行深度考慮和雜亂推理。而QwQ-32B突顯了將強化學習應用于通過大規模預練習的強壯根底模型的有效性。
其在文章中展現了在一系列基準測驗中與DeepSeek-R1、o1-mini等模型的功用比照,如在測驗數學才能的 AIME24 評測集上,以及評價代碼才能的LiveCodeBench 中,千問 QwQ-32B 體現與DeepSeek-R1適當,勝于 o1-mini 及相同尺度的R1 蒸餾模型。
現在,QwQ-32B 已在 Hugging Face 和 ModelScope 開源,并采用了 Apache 2.0 開源協議。
修改 胡萌。
校正 王心。