您現(xiàn)在的位置:首頁 > 經(jīng)濟(jì) > 正文

國內(nèi)前列!移動(dòng)云智算管控平臺(tái)上線

時(shí)間:2024-06-04 10:18:49    來源:今日熱點(diǎn)網(wǎng)    

5月31日,全新智算管控平臺(tái)在中國移動(dòng)智算中心(呼和浩特)上線。移動(dòng)云智算管控平臺(tái)專注提升智算中心AI業(yè)務(wù)穩(wěn)定性和運(yùn)行效率,打造了智算集群端網(wǎng)一體化性能監(jiān)控與調(diào)優(yōu)工具鏈能力,實(shí)現(xiàn)了對AI訓(xùn)練任務(wù)全面可視、可管的監(jiān)控管理,能夠做到訓(xùn)前集群健康狀態(tài)一站式檢查、訓(xùn)中任務(wù)粒度的實(shí)時(shí)監(jiān)控、訓(xùn)后故障快速定位恢復(fù)。

隨著大模型參數(shù)從千億增至萬億,并從單模態(tài)擴(kuò)展至多模態(tài),所需的算力集群規(guī)模也從千卡躍升至萬卡級(jí)別,隨之而來的模型訓(xùn)練穩(wěn)定性降低和成本增加的問題日益凸顯。

移動(dòng)云智算管控平臺(tái)通過健康巡檢一鍵化、訓(xùn)練任務(wù)可視化、故障診斷專家化等核心優(yōu)勢,有效提升訓(xùn)練穩(wěn)定性、降低訓(xùn)練成本,為大模型訓(xùn)練保駕護(hù)航。

IMG_257

大幅提升穩(wěn)定性

全生命周期守護(hù)大模型訓(xùn)練

千卡/萬卡級(jí)別的算力集群匯聚了數(shù)百萬個(gè)器件,其訓(xùn)練過程中任何單一器件故障都極易造成整個(gè)模型訓(xùn)練的中斷。據(jù)統(tǒng)計(jì),由于故障頻發(fā),大模型的實(shí)際有效訓(xùn)練時(shí)間僅達(dá)到30%至50%。

移動(dòng)云智算管控平臺(tái)可大幅提升訓(xùn)練任務(wù)穩(wěn)定性,在中國移動(dòng)內(nèi)部大模型訓(xùn)練中成功保障千卡集群穩(wěn)定運(yùn)行20天以上,處于國內(nèi)前列。

移動(dòng)云智算管控平臺(tái)具備健康巡檢一鍵化、訓(xùn)練任務(wù)可視化的核心優(yōu)勢,全程護(hù)航大模型穩(wěn)定訓(xùn)練。

健康巡檢一鍵化:

平臺(tái)共計(jì)提供100+健康檢查項(xiàng),覆蓋端網(wǎng)一體的一鍵健康檢查,涵蓋全量及單模塊監(jiān)測,支持訓(xùn)前、訓(xùn)中、訓(xùn)后的全生命周期健康檢查和性能分析。實(shí)現(xiàn)故障節(jié)點(diǎn)的快速感知優(yōu)化,提升訓(xùn)練任務(wù)成功率。

IMG_258

訓(xùn)練任務(wù)可視化:

平臺(tái)打造了AI訓(xùn)練任務(wù)的監(jiān)管視圖,能夠可視化展示任務(wù)訓(xùn)練進(jìn)度、訓(xùn)練關(guān)鍵指標(biāo),具備秒級(jí)時(shí)延的異常感知和上報(bào)能力,觸發(fā)任務(wù)訓(xùn)練平臺(tái)的斷點(diǎn)續(xù)訓(xùn)。

IMG_259

有效降低成本

構(gòu)建豐富的智算調(diào)優(yōu)知識(shí)儲(chǔ)備

基礎(chǔ)大模型的訓(xùn)練周期往往長達(dá)數(shù)月,而業(yè)界大模型穩(wěn)定訓(xùn)練平均時(shí)長僅達(dá)到天級(jí)。由于故障模式復(fù)雜多樣,難以迅速定位與界定,每次故障修復(fù)耗時(shí)可能長達(dá)1至30天;且算力資源較為昂貴,一個(gè)萬卡集群的閑置損失將超過300萬元/天。

移動(dòng)云智算管控平臺(tái)不僅能夠提升大模型訓(xùn)練穩(wěn)定性、降低故障頻次,還具備故障診斷專家化的突出優(yōu)勢。

故障診斷專家化

平臺(tái)精心構(gòu)建專家知識(shí)庫,深度整合了數(shù)百位訓(xùn)練調(diào)優(yōu)專家的實(shí)戰(zhàn)經(jīng)驗(yàn),打通英偉達(dá)、昇騰等廠商開源生態(tài)的知識(shí)數(shù)據(jù),通過實(shí)現(xiàn)故障的高效定位,達(dá)到 90%的故障快速恢復(fù),將訓(xùn)練成本降低三分之一。

IMG_260

一直以來,移動(dòng)云持續(xù)攻堅(jiān)智算領(lǐng)域關(guān)鍵核心技術(shù)、為我國人工智能產(chǎn)業(yè)發(fā)展構(gòu)筑強(qiáng)大數(shù)字底座。移動(dòng)云以大算力賦能大模型,規(guī)劃“N+X”大規(guī)模智算基礎(chǔ)設(shè)施體系,全網(wǎng)智算規(guī)模達(dá)到17EFLOPS(FP16)。其中,在呼和浩特投產(chǎn)的全球運(yùn)營商最大單體液冷智算中心,曾入選2023年度央企十大超級(jí)工程。同時(shí),打造涵蓋IaaS/PaaS/MaaS/SaaS的全棧智算產(chǎn)品體系,為不同行業(yè)提供便捷高效的一體化算網(wǎng)服務(wù)。

未來,移動(dòng)云將繼續(xù)強(qiáng)化智算布局,深化技術(shù)研發(fā)與應(yīng)用創(chuàng)新,為新質(zhì)生產(chǎn)力發(fā)展貢獻(xiàn)力量。


關(guān)鍵詞:

凡本網(wǎng)注明“XXX(非中國微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注