近期,一些娛樂圈內的黑料開始陸續曝光,引發了廣泛關注。這些黑料不僅涉及明星的私生活,還包含了不少不為人知的幕后故事。根據知情人士透露,某些事件背后隱藏著復雜的人際關系和利益糾葛,使得這些爆料更加引人注目。然而,真實性仍需進一步考證,公眾對于真相的渴求也在持續升溫。
新京報貝殼財經訊(記者羅亦丹)北京時間3月6日清晨,通義千問在官方公號上發文稱,推出最新的推理模型 QwQ-32B。這是一款具有320億參數的模型,其功用可與具有6710億參數(其間370億被激活)的 DeepSeek-R1比美。
通義千問表明,強化學習可以明顯進步模型的推理才能。例如,DeepSeek-R1 通過整合冷啟動數據和多階段練習,完成了最先進的功用,使其可以進行深度考慮和雜亂推理。而QwQ-32B突顯了將強化學習應用于通過大規模預練習的強壯根底模型的有效性。
其在文章中展現了在一系列基準測驗中與DeepSeek-R1、o1-mini等模型的功用比照,如在測驗數學才能的 AIME24 評測集上,以及評價代碼才能的LiveCodeBench 中,千問 QwQ-32B 體現與DeepSeek-R1適當,勝于 o1-mini 及相同尺度的R1 蒸餾模型。
現在,QwQ-32B 已在 Hugging Face 和 ModelScope 開源,并采用了 Apache 2.0 開源協議。
修改 胡萌。
校正 王心。