近日,基于“百度百舸GPU云平臺+昆侖芯P800”構建的國產萬卡集群,以卓越表現,成為首家通過中國信息通信研究院《面向大規模智算服務集群的穩定運行能力要求》測評的國產萬卡級別集群,且在基礎設施、集群調度、模型訓練保障等核心測評維度上,斬獲高等級“五星級”。這不僅是對百度智能云當前技術實力的權威認可,更標志著國產萬卡集群在穩定性與成熟度上達到了全新高度,為產業智能化提供了堅實可靠的算力底座。
圖片1.jpg
硬核底座:百舸+昆侖芯,打造“多快穩省”AI基礎設施,讓萬卡集群持續穩跑
支撐超大規模智算集群的穩定高效運行,是全球科技企業面臨的共同挑戰。百度智能云基于“百度百舸GPU云平臺+昆侖芯P800”構建的國產萬卡集群通過高等級測評,正是攻克這一難題的硬核答案。
昆侖芯P800是一款真正意義上為大模型而設計的芯片,它采用了完全由昆侖芯自研的XPU-P架構,顯存遠超同類芯片。而AI芯片非常敏感,隨著集群規模擴展,故障率一定會快速增長,對于整個業務影響是指數級的。這就要求,在硬件之上,還必須有一層好的軟件管理系統,保證集群的穩定運行。百度百舸GPU云平臺,圍繞落地大模型全旅程的算力需求,在集群創建、開發實驗、模型訓練、模型推理四大方面,能為企業提供“多快穩省”的AI基礎設施,在萬卡集群的建設中發揮了至關重要的作用。在萬卡任務上,百舸平臺可以保障有效訓練時長占比達到99.5%。在推理加速的優化上,百舸平臺基于大規模PD分離式推理系統以及多專家并行機制,支撐千帆平臺為40萬客戶提供服務。上線以來,千帆的推理吞吐提升了20倍,推理速度提升了50%以上。這一獨特的技術優勢也助力百度智能云成功突破頭部科技企業及中腰部客戶市場,推動GenAIIaaS業務實現跨越式增長。
智算未來:加快推動大模型產業化發展,釋放更多場景價值
今年2月,百度智能云已成功點亮昆侖芯P800萬卡集群,這也是國內正式點亮的自研萬卡集群;4月,再一次成功點亮國內全自研的3萬卡集群,可同時承載多個千億參數大模型的全量訓練,支持1000個客戶同時做百億參數的大模型精調。該集群建設了超大規模的高性能網絡,能夠保證大規模集群執行訓練任務時的穩定性,創新性地設計了顯著降低能耗的散熱方案。大模型賦能產業是一場長期接力,百度會堅定投入,打造更先進、高效的人工智能基礎設施,服務更多的中國企業,加快推動大模型產業化發展,釋放更多場景價值。
未來一年,將是各種AI原生應用爆發的黃金時期。自研芯片和萬卡集群的建成帶來了強大的算力支持,同時有效提升用戶的資源整體利用率,降低大模型訓練成本,推動模型降本,將為產業的全面繁榮乃至整個行業的長遠發展提供了新思路和新方向。
