近日,中國電信宣布一項里程碑式突破——成功完成業(yè)內(nèi)首個1024卡千億參數(shù)商用大模型分布式聯(lián)合訓(xùn)練試商用。這一成果不僅標(biāo)志著中國在智算網(wǎng)絡(luò)領(lǐng)域的技術(shù)領(lǐng)先地位,更為AI基礎(chǔ)設(shè)施的協(xié)同發(fā)展提供了“中國方案”。
500公里無損互聯(lián)背后的“硬核創(chuàng)新”
此次試商用的核心挑戰(zhàn)在于如何實現(xiàn)長距離、高帶寬、低延遲的算力協(xié)同。中國電信組織旗下研究院、天翼云、北京公司深度協(xié)作,通過自主研發(fā)的“廣域智聯(lián)無損網(wǎng)絡(luò)”技術(shù),在武清至瀛海之間構(gòu)建了一條長達(dá)500公里的真實光路環(huán)回網(wǎng)絡(luò),成功將千億參數(shù)大模型的分布式訓(xùn)練性能提升至單數(shù)據(jù)中心效能的97%以上。
據(jù)北京電信負(fù)責(zé)人王軼介紹,關(guān)鍵技術(shù)亮點為采用800G廣域無損傳輸技術(shù),帶寬收斂比提升至32:1,解決了長距離傳輸中因網(wǎng)絡(luò)擁塞導(dǎo)致的丟包問題?!翱梢詫崿F(xiàn)50毫秒,極速倒換”,該負(fù)責(zé)人表示,通過WSON(光波長保護(hù))技術(shù)實現(xiàn)鏈路中斷無感知切換,保障訓(xùn)練連續(xù)性與穩(wěn)定性。
圖:息壤一站式智算服務(wù)平臺
在此基礎(chǔ)上,本次聯(lián)合訓(xùn)練試商用還利用息壤智算平臺,集成跨地域算網(wǎng)協(xié)同、自動并行、斷點續(xù)訓(xùn)等功能,實現(xiàn)故障秒級定位與分鐘級恢復(fù),大幅提升商用模型的部署效率。
打破“算力孤島” 重構(gòu)AI基礎(chǔ)設(shè)施格局
當(dāng)前,AI大模型訓(xùn)練對算力的需求呈指數(shù)級增長,但傳統(tǒng)單數(shù)據(jù)中心模式受限于物理空間、能源成本與地域限制,難以滿足需求。
中國電信此次突破的核心價值在于,通過跨地域算力整合,將分散的數(shù)據(jù)中心轉(zhuǎn)化為“虛擬超級計算機(jī)”,極大降低了訓(xùn)練成本,同時為“東數(shù)西算”工程等提供了可落地的技術(shù)路徑。
此次試商用的成功是中國電信在智算網(wǎng)絡(luò)領(lǐng)域持續(xù)創(chuàng)新和實踐的成果,也是積極響應(yīng)國家戰(zhàn)略推動算力網(wǎng)絡(luò)協(xié)同發(fā)展的重要舉措。未來,中國電信將繼續(xù)加大在智算網(wǎng)絡(luò)領(lǐng)域的投入和研發(fā)力度,為人工智能產(chǎn)業(yè)的發(fā)展提供更加強(qiáng)有力的網(wǎng)絡(luò)支持,助力我國數(shù)字經(jīng)濟(jì)的高質(zhì)量發(fā)展。