近日,一系列關于娛樂圈的“黑料”開始浮出水面,引發了公眾的廣泛關注與討論。各種傳聞和曝光的信息不斷充斥著社交媒體,人們對明星背后的故事充滿好奇,而這些消息的真實性也難以考量。究竟是真相,還是僅僅是“吃瓜”群眾的好奇心作祟,尚待更深入的調查與揭示。
手機檢查財經快訊。
專業,豐厚。
一手把握商場脈息。
手機上閱讀文章。
提示:微信掃一掃。
同享到您的。
朋友圈。
一同重視一下關于DeepSeek的最新消息!
。
DeepSeek初次發表:理論本錢利潤率545%。 當商場認為DeepSeek的開源周內容發布結束之后,3月1日,DeepSeek宣告了“One More Thing”,忽然揭秘V3/R1推理系統,揭露了大規劃布置本錢和收益。
依據《DeepSeek-V3/R1推理體系概覽》的文章,
假定GPU租借本錢為2美元/小時,總本錢為87072美元/天;假如一切tokens悉數依照DeepSeek R1的定價核算,理論上一天的總收入為562027美元/天,本錢利潤率為545%。 。
據官方發表,DeepSeek-V3/R1推理體系的優化方針是:更大的吞吐,更低的推遲。 為了完結這兩個方針,DeepSeek運用大規劃跨節點專家并行(Expert Parallelism / EP)。首要EP使得batch size大大添加,然后進步GPU矩陣乘法的功率,進步吞吐。其次EP使得專家渙散在不同的GPU上,每個 GPU 只需求核算很少的專家(因而更少的訪存需求),然后下降推遲。
但EP一起也添加了體系的復雜性。復雜性首要體現在兩個方面:
EP引進跨節點的傳輸。為了優化吞吐,需求規劃適宜的核算流程使得傳輸和核算能夠同步進行。
EP觸及多個節點,因而天然需求Data Parallelism(DP),不同的DP之間需求進行負載均衡。
因而,DeepSeek介紹了怎么運用EP增大batch size,怎么躲藏傳輸的耗時,怎么進行負載均衡。
。
大規劃跨節點專家并行(Expert Parallelism / EP)。 由于DeepSeek-V3/R1的專家數量很多,而且每層256個專家中僅激活其間8個。模型的高度稀少性決議了有必要選用很大的overall batch size,才能給每個專家供給滿足的expert batch size,然后完結更大的吞吐、更低的延時。需求大規劃跨節點專家并行(Expert Parallelism / EP)。
選用多機多卡間的專家并行戰略來到達以下意圖:
。
Prefill。:路由專家EP32、MLA和同享專家DP32,一個布置單元是4節點,32個冗余路由專家,每張卡9個路由專家和1個同享專家。 。
Decode。:路由專家EP144、MLA和同享專家DP144,一個布置單元是18 節點,32個冗余路由專家,每張卡2個路由專家和1個同享專家。 。
核算通訊堆疊。 多機多卡的專家并行會引進比較大的通訊開支,所以運用了雙batch堆疊來掩蓋通訊開支,進步全體吞吐。
關于prefill階段,兩個batch的核算和通訊交織進行,一個batch在進行核算的時分能夠去掩蓋另一個batch的通訊開支;
關于decode階段,不同階段的執行時刻有所不同,所以把attention部分拆成了兩個stage,合計5個stage的流水線來完結核算和通訊的堆疊。
。
盡可能地負載均衡。 由于選用了很大規劃的并行(包含數據并行和專家并行),假如某個GPU的核算或通訊負載過重,將成為功能瓶頸,拖慢整個體系;一起其他GPU由于等候而空轉,形成全體利用率下降。因而需求盡可能地為每個GPU分配均衡的核算負載、通訊負載。
。
PrefillLoadBalancer。 核心問題:不同數據并行(DP)實例上的懇求個數、長度不同,導致core-attention核算量、dispatch發送量也不同。
優化方針:各GPU的核算量盡量相同(core-attention核算負載均衡)、輸入的token數量也盡量相同(dispatch發送量負載均衡),防止部分GPU處理時刻過長。
。
DecodeLoadBalancer。 核心問題:不同數據并行(DP)實例上的懇求數量、長度不同,導致core-attention核算量(與KVCache占用量相關)、dispatch發送量不同。
優化方針:各GPU的KVCache占用量盡量相同(core-attention核算負載均衡)、懇求數量盡量相同(dispatch發送量負載均衡)。
。
Expert-ParallelLoadBalancer。 核心問題:關于給定MoE模型,存在一些天然的高負載專家(expert),導致不同GPU的專家核算負載不均衡。
優化方針:每個GPU上的專家核算量均衡(即最小化一切GPU的dispatch接納量的最大值)。
。
線上體系的實踐核算數據。 DeepSeekV3和R1的一切服務均運用H800GPU,運用和練習共同的精度,即矩陣核算和dispatch傳輸選用和練習共同的FP8格局,core-attention核算和combine傳輸選用和練習共同的BF16,最大程度確保了服務作用。
別的,由于白日的服務負荷高,晚上的服務負荷低,因而完結了一套機制,在白日負荷高的時分,用一切節點布置推理服務。晚上負荷低的時分,削減推理節點,以用來做研討和練習。在最近的24小時里(北京時刻2025/02/27 12:00至2025/02/28 12:00),DeepSeek。
-。V3和R1推理服務占用節點總和,峰值占用為278個節點,均勻占用226.75個節點(每個節點為8個H800GPU)。。假定GPU租借本錢為2美金/小時,總本錢為87072美元/天。 在24小時核算時段內,DeepSeek。
-。V3和R1: 輸入token總數為608B,其間342Btokens(56.3%)射中KVCache硬盤緩存。
輸出token總數為168B。均勻輸出速率為20~22tps,均勻每輸出一個token的KVCache長度是4989。
均勻每臺H800的吞吐量為:關于prefill使命,輸入吞吐約73.7ktokens/s(含緩存射中);關于decode使命,輸出吞吐約14.8ktokens/s。
。
以上核算包含了網頁、APP和API的一切負載。假如一切tokens悉數依照DeepSeek-R1的定價核算,理論上一天的總收入為562027美元,本錢利潤率為545%。當然實踐上沒有這么多收入,由于V3的定價更低,一起收費服務只占了一部分,別的夜間還會有扣頭。 有網友將DeepSeek與OpenAI進行比照,表明:“‘本錢利潤率545%’,等一下,所以你是說我被OpenAI掠奪了?”。
。
潞晨科技暫停DeepSeek API服務。 就在DeepSeek發表大規劃布置本錢和收益之后,潞晨科技忽然宣告:“敬重的用戶,潞晨云將在一周后中止供給DeepSeek API服務,請趕快用完您的余額。假如沒用完,咱們全額退款。”。
此前2月4日晚間,華為核算微信大眾號發文表明,DeepSeek-R1系列模型的開源,因其超卓的功能和低價的開發本錢,已引發全球的熱切評論和重視。潞晨科技攜手昇騰,聯合發布根據昇騰算力的DeepSeek-R1系列推理API,及云鏡像服務。
但近期潞晨科技CEO尤洋指出,滿血版DeepSeek-R1每百萬token(輸出)定價16元,假如每日輸出1000億token,一個月算下來接入方企業可獲得4800萬元收入。據他測算,完結1000億token的輸出,需求約4000臺搭載H800的機器,以現在H800的市價或許折舊來核算,每月僅機器本錢就達4.5億元,因而企業方可能面對每月4億元的虧本,“用戶越多,服務本錢越高,虧本越多”。
3月1日下午4點,潞晨科技CEO尤洋發文回應DeepSeek發布的理論本錢利潤率。
揭露材料顯現,潞晨科技是一家致力于“解放AI生產力”的全球性企業,團隊核心成員來自美國加州大學伯克利分校,斯坦福大學,清華大學,北京大學等國內外聞名高校。主營業務包含分布式軟件體系,大規劃人工智能渠道,以及企業級云核算解決方案。公司旨在打造一個開源低本錢AI大模型開發體系Colossal-AI,作為深度學習結構的內核,協助企業最大化人工智能練習功率的一起最小化人工智能的練習本錢。
(文章來歷:我國基金報)。