久久丁香,日韩免费一区,亚洲精品蜜桃久久久久久

從2023年的ChatGPT，到2024年的Sora，AI和大模型正以不可思議的發(fā)展速度顛覆著業(yè)界的認(rèn)知，但大模型的火熱登場(chǎng)，也進(jìn)一步引爆了智能算力的需求。傳統(tǒng)算力時(shí)代，算力需求每18-20個(gè)月翻一倍，在深度學(xué)習(xí)出現(xiàn)之后，算力需求每6個(gè)月翻一倍，而到了大模型時(shí)代，對(duì)智能算力的需求幾乎是每年數(shù)百倍的增長(zhǎng)。

根據(jù)中國(guó)信通院發(fā)布的《中國(guó)算力發(fā)展指數(shù)白皮書(shū)（2023年）》顯示，在目前的算力規(guī)模中，通用算力規(guī)模占比達(dá)74%，智能算力規(guī)模占比達(dá)25%，同比增加60%，成為當(dāng)前算力快速增長(zhǎng)的驅(qū)動(dòng)力，而預(yù)計(jì)未來(lái)幾年，智能算力的需求將比當(dāng)前呈現(xiàn)上百倍的增長(zhǎng)。

但新的難題也由此產(chǎn)生，在智能算力的1.0時(shí)代，主要是采用垂直一體式的方案，針對(duì)性地滿足高性能計(jì)算、人工智能、大數(shù)據(jù)計(jì)算等不同的應(yīng)用負(fù)載，通用性和兼容性比較低；而在智能算力的2.0時(shí)代，則出現(xiàn)了異構(gòu)智算融合的趨勢(shì)，即將不同架構(gòu)的芯片平臺(tái)、不同的算法模型以及數(shù)據(jù)集最大化融合，讓用戶可以根據(jù)業(yè)務(wù)場(chǎng)景和計(jì)算任務(wù)選擇最適合的算力方案。在這樣的背景下，如何把智能算力的效率發(fā)揮到極致，如何提升數(shù)據(jù)中心的整體能效，讓智能算力的價(jià)值得到最大化體現(xiàn)呢？

聯(lián)想：跨越智能算力“四座大山”，釋放異構(gòu)智算“乘數(shù)效應(yīng)”

在日前舉辦的聯(lián)想創(chuàng)新科技大會(huì)（2024 Lenovo Tech World）上，聯(lián)想正式發(fā)布聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)，該平臺(tái)集成了聯(lián)想為滿足AI應(yīng)用大潮所打造的五大創(chuàng)新技術(shù)，可以說(shuō)為AI時(shí)代大模型訓(xùn)練和推理構(gòu)建出了穩(wěn)定高效的基礎(chǔ)設(shè)施算力底座，也讓智能算力能夠真正“用得上”、“用得好”、“用得精”。

與此同時(shí)，聯(lián)想還與中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟共同宣布，發(fā)起成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟，聯(lián)合產(chǎn)業(yè)頭部生態(tài)伙伴共建聯(lián)想萬(wàn)全生態(tài)，助力中國(guó)智算生態(tài)繁榮發(fā)展與創(chuàng)新。

毫無(wú)疑問(wèn)，站在AI產(chǎn)業(yè)大變革的今天，聯(lián)想基于自身在數(shù)據(jù)中心基礎(chǔ)設(shè)施的持續(xù)的創(chuàng)新和投入，以及最佳實(shí)踐和經(jīng)驗(yàn)，推出聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)，并發(fā)起成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟，相信這將會(huì)進(jìn)一步釋放出異構(gòu)智算的“乘數(shù)效應(yīng)”，為千行百業(yè)創(chuàng)造出更多具有想象空間的新業(yè)態(tài)、新服務(wù)和新模式，激發(fā)更大的新質(zhì)生產(chǎn)力。

跨越智能算力“四座大山”

隨著大模型時(shí)代的到來(lái)，可以發(fā)現(xiàn)智能算力與產(chǎn)業(yè)的融合正變得越來(lái)越緊密，從智慧醫(yī)療，智慧金融，智慧城市再到無(wú)人駕駛等等，智能算力已經(jīng)開(kāi)始滲透到千行百業(yè)的方方面面，推動(dòng)著“算力基建化”的步伐。

也正因此，去年底國(guó)家六部門(mén)聯(lián)合印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》中，就提出到2025年，計(jì)算力方面，算力規(guī)模超過(guò)300 EFLOPS，其中智能算力占比要達(dá)到35%，這也代表著我國(guó)的算力產(chǎn)業(yè)步入了高速發(fā)展的新階段，智能算力更成為了數(shù)字經(jīng)濟(jì)“主航道”中最為核心的驅(qū)動(dòng)力。

聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬

在聯(lián)想集團(tuán)副總裁、中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)群總經(jīng)理陳振寬看來(lái)，智能算力的火爆背后，同樣也為數(shù)據(jù)中心基礎(chǔ)設(shè)施帶來(lái)了諸多的挑戰(zhàn)，主要體現(xiàn)在以下幾個(gè)方面：

挑戰(zhàn)一，場(chǎng)景日益豐富，算力復(fù)雜多元，如何選擇和匹配合適的算力？目前已經(jīng)有五種以上主流算法框架和十種以上算子庫(kù)來(lái)支持不同的應(yīng)用場(chǎng)景。同時(shí)，不同類(lèi)型的GPU、服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)組成了上百種不同的集群配置，特別是場(chǎng)景、算法和集群之間的選擇和驗(yàn)證，不但技術(shù)繁雜而且周期長(zhǎng)，這都給用戶帶來(lái)了極大的壓力。

挑戰(zhàn)二，從千卡到萬(wàn)卡，如何減少故障恢復(fù)時(shí)間，提升集群的可用性？以千卡訓(xùn)練集群為例，目前千卡集群每月至少有15次的故障斷點(diǎn)，在常規(guī)的斷點(diǎn)續(xù)訓(xùn)手段下，每次恢復(fù)訓(xùn)練需要幾個(gè)小時(shí)，產(chǎn)生的額外費(fèi)用超過(guò)百萬(wàn)元，而隨著AI集群規(guī)模從千卡到萬(wàn)卡，故障中斷次數(shù)及恢復(fù)所需時(shí)間呈指數(shù)級(jí)增長(zhǎng)。

挑戰(zhàn)三，智能算力基礎(chǔ)設(shè)施的建設(shè)成本極高，如何改善和最大化AI算力利用率？AI對(duì)算力的需求是無(wú)窮盡的，然而隨著集群集成的芯片越來(lái)越多，我們不得不應(yīng)對(duì)算法效率不高、計(jì)算資源不足、互聯(lián)帶寬受限等眾多技術(shù)挑戰(zhàn)。數(shù)據(jù)顯示，當(dāng)前業(yè)內(nèi)MFU（模型算力利用率）普遍在30%左右，頂尖的集群利用率也只能做到50%，因此這就需要行業(yè)突破和解決GPU卡利用率、集群通訊效率、AI故障恢復(fù)、算法匹配度等系統(tǒng)性問(wèn)題。

挑戰(zhàn)四，在“雙碳”政策的驅(qū)動(dòng)下，如何最大化提升數(shù)據(jù)中心的整體能效？一直以來(lái)，數(shù)據(jù)中心作為“能耗大戶”，其建設(shè)和發(fā)展過(guò)程中也帶來(lái)了巨大的能耗挑戰(zhàn)。特別是在當(dāng)前算力升級(jí)帶來(lái)的能耗“飆升”的情況下，如何通過(guò)先進(jìn)的散熱技術(shù)，突破芯片在系統(tǒng)中的散熱瓶頸，同時(shí)提升能效，降低數(shù)據(jù)中心PUE將“刻不容緩”。

由此可見(jiàn)，由大模型興起所產(chǎn)生的巨量算力需求讓本就供需不平的算力產(chǎn)業(yè)結(jié)構(gòu)進(jìn)一步“承壓”，特別是如何跨越智能算力面臨的“四座大山”已成為整個(gè)業(yè)界的新挑戰(zhàn)和新課題。

夯實(shí)大模型時(shí)代“算力底座”

也正是洞察到這種變化和痛點(diǎn)，聯(lián)想正式發(fā)布集五大技術(shù)創(chuàng)新為一體的聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)，該平臺(tái)可幫助行業(yè)用戶跨越智能算力面臨的重重挑戰(zhàn)，真正讓千行百業(yè)在智能算力時(shí)代“用得上”、“用得好”、“用得精”，具體來(lái)看：

針對(duì)算力匹配方面，當(dāng)下異構(gòu)智算融合已是大勢(shì)所趨，一是CPU，GPU，DPU，NPU等處理器的異構(gòu)；二是AI算力集群，科學(xué)計(jì)算集群和通用計(jì)算集群的異構(gòu)，唯有做好異構(gòu)算力協(xié)同工作，才能有效支持復(fù)雜計(jì)算任務(wù)所需要的綜合計(jì)算。

而聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)搭載的“多維智能算力匹配魔方”技術(shù)，構(gòu)建了AI場(chǎng)景與算法與集群硬件三者匹配關(guān)系的算力魔方知識(shí)庫(kù)，可標(biāo)識(shí)AI場(chǎng)景、算法、集群配置這三者的匹配關(guān)系。更重要的是，“算力匹配魔方”可針對(duì)不同場(chǎng)景，可以全自動(dòng)規(guī)劃和調(diào)度最佳算法和集群配置，用戶只需輸入場(chǎng)景和數(shù)據(jù)，即可自動(dòng)加載最優(yōu)算法和調(diào)度最佳集群配置，由此為用戶跳過(guò)繁雜的算力選擇和驗(yàn)證。

提升算力利用率和可用性方面，在AI基礎(chǔ)設(shè)施中，要提高計(jì)算效率有兩大關(guān)鍵要素：一是提升算力的利用率，二是讓算力持續(xù)可用。因此，在聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)五大創(chuàng)新技術(shù)中，有四項(xiàng)都是聚焦在了提升算力利用率和可用性的算法創(chuàng)新上。

其中，GPU內(nèi)核態(tài)虛擬化算法技術(shù)，由聯(lián)想研究院開(kāi)發(fā)的GPU驅(qū)動(dòng)層的內(nèi)核態(tài)虛擬化算法，可最大化挖掘處理器潛力，讓vGPU利用率從80%提升到95%；此外，聯(lián)想集合通信算法庫(kù)技術(shù)，能夠自動(dòng)感知集群網(wǎng)絡(luò)拓?fù)洌⑦x擇和采用經(jīng)聯(lián)想增強(qiáng)的集合通信算法使數(shù)據(jù)傳輸在最佳路徑。以千卡規(guī)模集群為例，采用集成了聯(lián)想集合通信庫(kù)的聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)做管理調(diào)度，可使網(wǎng)絡(luò)通信效率提升超10%，并且集群規(guī)模越大，效果越顯著；而AI高效斷點(diǎn)續(xù)訓(xùn)技術(shù)，其核心能力是“以AI預(yù)測(cè)AI”訓(xùn)練故障，在斷點(diǎn)前針對(duì)故障特征做優(yōu)化備份，在斷點(diǎn)后可極速恢復(fù)。以千卡訓(xùn)練集群為例，目前聯(lián)想能將斷點(diǎn)續(xù)訓(xùn)恢復(fù)時(shí)間縮減到分鐘級(jí)，不僅能夠大幅提升訓(xùn)練效率，還可以幫助用戶節(jié)省額外支出百萬(wàn)元/月。

針對(duì)集群的調(diào)度管理，聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)內(nèi)置了AI與HPC異構(gòu)集群超級(jí)調(diào)度器，這是破局算力孤島，打開(kāi)集群共享之門(mén)的“關(guān)鍵鑰匙”，該“調(diào)度器”最為精髓之處就是做出能指揮雙類(lèi)型調(diào)度的最精簡(jiǎn)架構(gòu)，在AI的K8S調(diào)度和HPC的Slurm調(diào)度之上，通過(guò)切換“語(yǔ)言”的方式分別指揮AI和HPC調(diào)度器，1小時(shí)內(nèi)自動(dòng)完成跨集群的資源調(diào)度和共享，使得用戶可以充分利用基礎(chǔ)設(shè)施的每一分算力。

而面向未來(lái)，聯(lián)想也將挑戰(zhàn)超過(guò)萬(wàn)卡規(guī)模集群的通訊算法優(yōu)化，挑戰(zhàn)秒級(jí)的斷點(diǎn)續(xù)訓(xùn)，深入研究相變式液冷技術(shù)，布局模塊化液冷數(shù)據(jù)中心，而這些核心技術(shù)創(chuàng)新，也將助力AI算力朝著更強(qiáng)大、更穩(wěn)定、更高效和更綠色的方向高質(zhì)量發(fā)展。

客觀地說(shuō)，當(dāng)前業(yè)界各種智算平臺(tái)已經(jīng)對(duì)異構(gòu)算力的管理和調(diào)度開(kāi)展了不同技術(shù)方向的探索，市場(chǎng)上有些不同的異構(gòu)智算管理平臺(tái)，但聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)仍有三個(gè)獨(dú)特的優(yōu)勢(shì)：

得益于聯(lián)想在智算和超算領(lǐng)域的長(zhǎng)期耕耘，其AI與HPC異構(gòu)集群超級(jí)調(diào)度器屬于業(yè)內(nèi)首創(chuàng)，是聯(lián)想在異構(gòu)智算領(lǐng)域打造的“獨(dú)門(mén)秘籍”；同時(shí)，聯(lián)想分鐘級(jí)斷點(diǎn)續(xù)訓(xùn)的故障預(yù)測(cè)機(jī)制，同樣也是歷經(jīng)多年研發(fā)的，是分鐘級(jí)斷點(diǎn)續(xù)訓(xùn)能夠?qū)崿F(xiàn)的關(guān)鍵技術(shù)，同樣在業(yè)界是“獨(dú)一無(wú)二”的；不僅如此，相比市場(chǎng)上的其他異構(gòu)管理平臺(tái)，聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)納管豐富的多的異構(gòu)生態(tài)，和提供更深入全面的集群管理，這些關(guān)鍵技術(shù)的創(chuàng)新都為夯實(shí)大模型時(shí)代的“算力底座”提供了堅(jiān)實(shí)的基礎(chǔ)，背后也體現(xiàn)出了三重全新的價(jià)值。

一是，用得上，指的是聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)將算力管理與調(diào)度，數(shù)據(jù)治理與模型優(yōu)化、訓(xùn)練精調(diào)和推理應(yīng)用開(kāi)發(fā)等多層次的能力實(shí)現(xiàn)了全面集成，能夠向下納管豐富的算力生態(tài)，向上對(duì)接為各類(lèi)場(chǎng)景優(yōu)化的模型及AI工具集，因此可為用戶提供更簡(jiǎn)單、更高效、更穩(wěn)定的算力體驗(yàn)。

二是，用得好，如果我們從用戶視角出發(fā)來(lái)看，不論是模型開(kāi)發(fā)，推理服務(wù)開(kāi)發(fā)，還是AI應(yīng)用開(kāi)發(fā)，計(jì)算效率就是業(yè)務(wù)的根基，高效計(jì)算才能讓AI應(yīng)用的迭代部署跟上市場(chǎng)需求，才能控制業(yè)務(wù)TCO成本使AI創(chuàng)作的投入產(chǎn)出合理化。為此，聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)始終將突破計(jì)算效率的瓶頸作為平臺(tái)持續(xù)追求的差異化價(jià)值。無(wú)論是GPU內(nèi)核態(tài)虛擬化算法技術(shù)、聯(lián)想集合通信算法庫(kù)技術(shù)還是異構(gòu)集群超級(jí)調(diào)度器等，核心都是最大化提升用戶的算力利用率和可用性，讓用戶“用得好”AI算力。

三是，用得精，則是聯(lián)想萬(wàn)全異構(gòu)智算平臺(tái)不但打造了一個(gè)能夠高度自動(dòng)化完成AI全流程開(kāi)發(fā)的平臺(tái)，同時(shí)也是可輸出高可用算力并不斷突破計(jì)算效率瓶頸的利器，借助這個(gè)平臺(tái)，行業(yè)用戶可自動(dòng)完成AI計(jì)算并發(fā)布模型或發(fā)布推理服務(wù)。同時(shí)，平臺(tái)也為專業(yè)的AI開(kāi)發(fā)用戶留有手動(dòng)深入調(diào)整計(jì)算過(guò)程的空間，包括工具和模型的選擇，算力配置的調(diào)整，對(duì)任務(wù)的定制化監(jiān)控等，這樣就能使得每種資源都能在最適合的任務(wù)上發(fā)揮最大效能，真正讓用戶可以更加“精細(xì)化”管理AI算力資源，進(jìn)一步實(shí)現(xiàn)“降本增效”的價(jià)值。

釋放異構(gòu)智算“乘數(shù)效應(yīng)”

值得一提的是，在本次聯(lián)想創(chuàng)新科技大會(huì)2024上，聯(lián)想還與中國(guó)智能計(jì)算產(chǎn)業(yè)聯(lián)盟共同宣布，發(fā)起成立異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟。據(jù)了解，異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟框架由AI芯片層、AI設(shè)備與系統(tǒng)層和AI平臺(tái)與應(yīng)用層，能夠?qū)崿F(xiàn)從IaaS平臺(tái)、AI訓(xùn)練與推理到行業(yè)場(chǎng)景解決方案的全覆蓋。

聯(lián)想：跨越智能算力“四座大山”，釋放異構(gòu)智算“乘數(shù)效應(yīng)”

每日福利更多>>