8月30日,阿里云正式推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規模智算中心,以公共云和專有云兩種模式,為各類科研、公共服務和企業機構提供強大的智能計算服務。
阿里云稱,飛天智算平臺可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。
據了解,飛天智算平臺已在阿里內部廣泛應用,支撐達摩院前沿AI和電商智能技術發展,并服務了多家機構和企業,支撐自動駕駛、新藥研發、氣象預測、工業能源等行業大幅提升AI訓練效率。
據介紹,飛天智算平臺平臺提供基于阿里云磐久基礎設施的融合算力和大數據AI一體化平臺整體解決方案,可以運行在X86、GPU、ARM等多種芯片類型的服務器上,實現“一云多芯”,并以最高10倍IO優化和5倍通信性能優化,實現90%的千卡并行計算效率。
綠色技術方面,飛天智算在技術減排、能源結構優化、區域布局優化、供應鏈減碳以及資源利用優化五個方面來降低單位算力的碳排放。在技術減排方面,通過液冷、電源技術以及智能運維等方式降低能耗,PUE最低可達1.09。
同時,開發人員可以在平臺上進行數據存儲、數據治理、數據分析、模型開發、模型訓練與推理的工作。此外,還提供了預訓練模型,以及語音、圖像、自然語言處理、決策等領域的模型能力,以方便開發者更好的加速AI應用的開發。
目前,該平臺正在支撐建設兩座超大規模智算中心。其中,張北智算中心建設規模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,將成為全球領先的智算中心。烏蘭察布智算中心建設規模為3 EFLOPS(每秒300億億次浮點運算)AI算力,位于“東數西算”內蒙古樞紐節點。
阿里云智能全球銷售總裁蔡英華表示,智算不僅在于規模大,更是需要綠色、高效并且具備產業實踐。計算是一個龐大的復雜系統,沒有體系化的核心技術能力,靠堆硬件堆不出算力,更無法帶來實際的產業價值。
實際上,智能計算不同于通用型計算,需要海量數據對AI模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡以上規模的算力輸出最低往往僅有40%左右。這導致了智能算力成本高昂,制約了產業發展。阿里云通過體系化的技術創新,解決了智能計算的損耗難題,將千卡并行計算效率提升至90%以上。
據介紹,小鵬汽車基于飛天智算在烏蘭察布建設智算中心“扶搖”,算力規模達600PFLOPS,將自動駕駛模型訓練提速近170倍。在生命科學領域,深勢科技采用飛天智算平臺之后,將集群性能優化提升超過100%,讓分子動力學仿真模擬訓練效率提升了5倍。
此外,飛天智算還支撐了阿里巴巴的人工智能實踐,支撐阿里AI日均1萬億次調用。其中,拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時。達摩院大模型M6僅使用512張GPU,在10天內就完成了10萬億參數模型訓練,能耗僅為GPT-3在同等參數規模下的1%。