DeepSeek在8月21日正式發布V3.1,一則官方補充留言激起千層浪。
是的,因為官方在V3.1的發布文章里把有關過程算力支持的描述寫的太隱晦,又自己在評論區補充了一句。
一夜過去,短短的一句話,A股市場集體“開香檳”。據財聯社報道,全市場超2800只個股上漲。從板塊來看,算力股全線爆發,云天勵飛等多股漲停。芯片股集體大漲,寒武紀漲停創歷史新高,中芯國際大漲14%,海光信息漲停。
資本市場的反應并不是對一句口號的追捧,而是看到了國產芯片在算力賽道上真正切入國際前沿的可能。DeepSeek的這句話,不僅被視作一次“技術換擋”的信號,更是國內算力產業鏈罕見的共振時刻。
DeepSeek這枚炸彈,到底是什么?
要理解“UE8M0 FP8”為何能引發如此大的關注,必須將其拆解為兩個部分:作為本體的“FP8”和作為靈魂的“UE8M0”。FP8本身是一種將數字壓縮到僅用8位(bit)來存儲的浮點格式,旨在用更少的數據位寬降低AI大模型訓練和推理中對顯存帶寬的空前壓力。
而DeepSeek的模型一直使用的都是這個格式,但有一個問題,國內的芯片公司只有極少數GPU廠商原生支持FP8,比如摩爾線程,其旗艦產品MTT S5000就是國內首批原生支持FP8并大規模量產的GPU。大家普遍支持的都是FP16,這使得國產芯片在跑DeepSeek的模型時,性能至少會折損一半,所以,這也解釋了為什么大家還是喜歡買英偉達的芯片,因為如果是過去的國產芯片,起手就已經不是“滿血”了,更別說自己在本地調配時還有可能因為水平不足再降低性能。
圖|豆包AI生成
有AI infra企業告訴鳳凰網科技,解決方案就是在軟件上做突破,國內有專門針對國產芯片做軟件適配DeepSeek的企業,比如清程極智,其原則是讓國產芯片在用DeepSeek的時可以提升性能。
這里補充一個知識,純粹的FP8(如常見的E4M3或E5M2格式)在動態范圍和精度上存在固有權衡,處理具有極端大小值的復雜數據時仍可能面臨精度損失或數值溢出的挑戰。通俗的說,就是數據會有損,就像你壓縮打包一批衣服,可以壓到很小,但衣服會皺的厲害。
而真正的突破來自于由Meta、谷歌等科技巨頭推動的開放計算項目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整個張量共用一個大縮放因子,而是將其切分為微小的數據塊,并為每個塊單獨配備一個輕量級的8位縮放因子,從而在保持8位存儲效率的同時,動態范圍擴展了數十倍。通俗說,就是把一批衣服分開打包。
回到DeepSeek這次發布的“UE8M0”,正是MX格式中為每個數據塊指定的那個關鍵縮放因子的數據格式。它是一種極為高效的8位指數表示法:“U”代表無符號(Unsigned),意味著它永遠是一個正數,無需符號位;“E8”代表8個比特全部用于表示指數(Exponent);“M0”代表沒有尾數(Mantissa)。用一個比喻來形容,UE8M0就像一個 “只調檔位、不調微刻度”的超級節能燈泡開關,就像AI芯片里的快進鍵。
這種“全指數”設計帶來了兩大根本性優勢:其一,硬件在執行縮放(即數據還原)時異常簡單快捷,只需進行簡單的整數次冪運算(相當于直接移動二進制小數點),完全規避了復雜的浮點乘法與舍入操作,極大縮短了關鍵計算路徑,提升了能效。其二,其巨大的動態范圍(從2?¹²?到2¹²?)足以確保任何數據塊都能被恰到好處地縮放至FP8的表示范圍內,從而幾乎完全避免了因數值過大而溢出或過小而被舍入為零的信息損失問題,錯誤率曲線得以從高位大幅降至一條平坦的低水平線。
所以說UE8M0 FP8是讓國產芯片在跑大模型,尤其是在跑DeepSeek的模型時——更快、更省、更能扛大數。
許多現有國產AI加速器并未原生支持完整的E4M3/E5M2 FP8計算單元,但其架構正在向支持塊縮放(Block Scaling)的MX格式演進。UE8M0作為縮放因子,其本身格式極簡,無需復雜的專用浮點乘法器即可實現,降低了硬件實現門檻。
更重要的是,它為突破“內存墻”提供了最優解:相較于傳統的為每個數據塊配備一個32位FP32縮放因子,UE8M0僅需追加8位,即可高效管理32個FP8數據,帶寬開銷驟降75%。這對于HBM帶寬仍處于追趕階段的國產芯片而言,是一項通過數據格式創新實現“帶寬減負”的架構級優化,成為了在下一代競爭中實現效能躍升的關鍵技術路徑。因此,這不僅是單純的技術兼容,更是一次在主流標準框架內,通過前沿設計實現差異化競爭力的精準卡位。
中國算力產業正在迎來“頓悟時刻”
從產業層面看,DeepSeek的這次表態不只是一種技術選擇,更是一次產業生態的確認。想想看,中國最好用的大模型產品與英偉達如此緊密的捆綁,本身是一件不樂觀的事情,DeepSeek這一次的發布,可以看作是一種漸進式的解綁,官方主動下場為國產芯片發展生態站位。
UE8M0 FP8的落地,也意味著國產算力廠商已經在浮點格式、編譯器優化、訓練框架適配等環節上實現全棧打通,這背后意味著長期積累的軟硬件協同終于顯現成果。
至于其所提到的下一代國產芯片是誰,鳳凰網科技此前了解到的,目前成熟的頭部國產芯片公司其實都與DeepSeek有所接觸。另外,有不少本身都是支持FP8的,除了摩爾線程,今天漲得最兇猛的寒武紀,旗下的思元590以及最新690系列都支持。鳳凰網科技還了解到,摩爾線程的MUSA架構本就原生支持硬件FP8張量加速計算,現在還能夠很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相對于傳統的FP16計算能夠實現兩倍的浮點算力提升、訪存和通信帶寬效率提升和存儲容量利用率提升,同時最優化張量表達精度。
所以說,其實利好誰并不需要猜測,因為DeepSeek此次就是要普遍支持國產芯片生態。
DeepSeek一句話背后,是對未來大模型算力效率的重新定義,也是國產芯片廠商獲得國際話語權的起點。資本市場的集體狂歡,既有情緒成分,更折射出一個信號:中國芯片正迎來前所未有的窗口期,而這一次,它們有機會真正站到技術潮水的前沿。