2024年10月9日,聯(lián)發(fā)科正式推出兩款芯片,一款是手機(jī)領(lǐng)域是天璣9400,另一款就是汽車座艙芯片CT-X1,這也是聯(lián)發(fā)科與英偉達(dá)合作的首款芯片。
來(lái)源:網(wǎng)絡(luò)
聯(lián)發(fā)科在發(fā)布會(huì)上毫不掩飾,宣稱性能超越高通SA8295有30%。不過(guò)聯(lián)發(fā)科還是一貫風(fēng)格,未透露太多CT-X1的細(xì)節(jié)。當(dāng)然CT-X1是代號(hào),型號(hào)可能是MT8678。
來(lái)源:網(wǎng)絡(luò)
我們來(lái)將CT-X1即MT8678與高通SA8295做一個(gè)對(duì)比,當(dāng)然這有些不公平,畢竟高通SA8295是大約2021年底推出的芯片,與CT-X1有著三年的時(shí)間差。
來(lái)源:佐思汽研
CPU方面,相差有18%,但聯(lián)發(fā)科的CT-X1基礎(chǔ)頻率低不少,功耗比SA8295要降低不少。聯(lián)發(fā)科的CT-X1與天璣9400的CPU配置基本沒(méi)差別,天璣9400也是一個(gè)X925超大核、三個(gè)X4超大核、四個(gè)A720大核的全新架構(gòu)。X925提升到3.62GHz,比天機(jī)9300最高頻率提升了幾乎400MHz,也就是大約11%。X4核心的頻率從3.25GHz略微提高到3.3GHz,四個(gè)A720核心的頻率從2.0GHz大幅提高到2.4GHz。X925、X4、A720核心分別搭配2MB、1MB、512KB二級(jí)緩存,與上一代相比,容量都翻了一倍。整體配備12MB三級(jí)緩存,容量增加50%,以及10MB系統(tǒng)緩存車規(guī)版大幅度降低頻率,降低功耗。實(shí)際CPU性能可以輕松超過(guò)SA8295 30%。
來(lái)源:佐思汽研
對(duì)CPU來(lái)說(shuō)最關(guān)鍵的數(shù)據(jù)有兩個(gè),一個(gè)是IPC也就是解碼位寬,另一個(gè)就是cache容量,在被高通拋棄以及蘋果步步緊逼下,ARM不再緩慢擠牙膏,一步到位推出了X925,解碼位寬高達(dá)10位,是X1的兩倍。Cache則是X1的10倍以上。足以媲美蘋果的A18。
Cortex-X925實(shí)際就是Cortex-5
來(lái)源:Chips & Semi News
SA8295用的是ARM在2020年的架構(gòu),和聯(lián)發(fā)科的CT-X1有著4年的差距。
X4與X925核心對(duì)比
來(lái)源:ARM
X925性能大幅度提升。
來(lái)源:ARM
后端方面
來(lái)源:ARM
X925做AI運(yùn)算時(shí)與X4的對(duì)比
來(lái)源:ARM
目前,所有的AI大模型(即LLM,語(yǔ)言大模型)都是Transformer架構(gòu),Transformer架構(gòu)保留了部分RNN串行計(jì)算的特征,尤其適合CPU運(yùn)算,還有些矩陣矢量乘法運(yùn)算,CPU效率遠(yuǎn)高于GPU,通常這些運(yùn)算會(huì)退回到CPU中進(jìn)行,與大多數(shù)人想象的不同,最高效率對(duì)應(yīng)transformer架構(gòu)的是CPU而非GPU,只不過(guò)CPU的核心數(shù)量很難像GPU那樣做到數(shù)百乃至數(shù)千個(gè),論到單個(gè)核心的算力,CPU遠(yuǎn)在GPU之上,這也是英偉達(dá)要做自己的CPU的主要原因。順便說(shuō)一句,英偉達(dá)也將在明年推出基于Cortex-X925的AI PC用CPU。
GPU方面推測(cè)和天璣9400一樣采用了Immortalis-G925,還是12核心,在1612MHz下可以爆發(fā)4952GFLOPS的算力,幾乎相當(dāng)于中低檔次桌面級(jí)獨(dú)立顯卡。用在車上,頻率自燃要大幅度降低來(lái)降低功耗,3000GFLOPS的算力也是相當(dāng)驚人的,與SA8295完全一個(gè)水平。
大模型時(shí)代,存儲(chǔ)帶寬比算力重要,存儲(chǔ)帶寬決定了大模型參數(shù)下限,這點(diǎn)聯(lián)發(fā)科CT-X1有著壓倒性優(yōu)勢(shì),也是聯(lián)發(fā)科敢于說(shuō)支持130億參數(shù)大模型的底氣所在。
三星對(duì)GPT大模型workload分析
來(lái)源:三星
上圖是三星對(duì)GPT大模型workload分析,在運(yùn)算操作數(shù)量上,GEMV(General Matrix Vector Multiplication, 矩陣向量乘法)所占的比例高達(dá)86.53%,在大模型運(yùn)算延遲分析上,82.27%的延遲都來(lái)自GEMV,GEMM(General Matrix Multiplication, 矩陣乘法)只占2.12%,非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。
三星對(duì)GPU利用率的分析
來(lái)源:三星
從上圖可以看出在GEMV算子時(shí),GPU的利用率很低,一般不超過(guò)20%,換句話說(shuō)80%的時(shí)間GPU都是在等待存儲(chǔ)數(shù)據(jù)的搬運(yùn)。還有如矩陣反轉(zhuǎn),嚴(yán)格地說(shuō)沒(méi)有任何運(yùn)算,只是存儲(chǔ)行列對(duì)調(diào),完全是存儲(chǔ)器和CPU在忙活。
AI芯片的性能是一個(gè)屋頂模型Roofline Model
來(lái)源:網(wǎng)絡(luò)
Roofline Model可以看出平均帶寬需求和峰值計(jì)算能力像天花板一樣是整個(gè)系統(tǒng)計(jì)算的能力上限,以計(jì)算強(qiáng)度上限Imax為界,劃分出AI芯片的兩個(gè)瓶頸區(qū)域,即圖中橘色的內(nèi)存受限區(qū)(Memory Bound)和圖中藍(lán)色的計(jì)算受限區(qū)(Compute Bound)。存儲(chǔ)決定了下限,計(jì)算決定了上限。因?yàn)?Decoding 階段 Token 逐個(gè)處理,使用 KV Cache 之后, Multi-Head Attention 里的矩陣乘矩陣操作全部降級(jí)為矩陣乘向量即GEMV。此外,Transformer 模型中的另一個(gè)關(guān)鍵組件 FFN 中主要也包含兩個(gè)矩陣乘法操作,但 Token 之間不會(huì)交叉融合,也就是任何一個(gè) Token 都可以獨(dú)立計(jì)算,因此在 Decoding 階段不用 Cache 之前的結(jié)果,但同樣會(huì)出現(xiàn)矩陣乘矩陣操作降級(jí)為矩陣乘向量。Prefill階段則是GEMM,即矩陣與矩陣的乘法。GEMV是訪存密集型操作,性能完全取決于存儲(chǔ)帶寬。
如果聯(lián)發(fā)科CT-X1與天璣9400的存儲(chǔ)系統(tǒng)一樣,那么CT-X1應(yīng)該支持LPDDR5X 10667Mbps,史上首次突破10Gbps大關(guān),實(shí)際上這就是LPDDR6。
LPDDR6基礎(chǔ)速率10.667Gbps,最高可達(dá)14.4Gbps。
來(lái)源:Synopsys
最后是NPU,這可能是聯(lián)發(fā)科和英偉達(dá)合作的產(chǎn)物,算力高達(dá)46TOPS,比Mobileye的EyeQ6H還要高出12TOPS,做艙駕一體完全沒(méi)問(wèn)題。
座艙芯片卷出新高度,主要也是這么多年以來(lái)高通一直在吃老本,缺乏新產(chǎn)品支撐,但高通建立強(qiáng)大的生態(tài)系統(tǒng)和口碑,最重要的是消費(fèi)者對(duì)高通品牌已經(jīng)等同于高端先進(jìn)的理解,聯(lián)發(fā)科還需要在品牌宣傳和生態(tài)系統(tǒng)方面多下功夫。