眾所周知,大語言模型的快速發展離不開強大的算力支持,但目前全球范圍內算力資源仍然非常有限。即便是財力最雄厚的公司,所擁有的算力也無法滿足日益增長的需求。
根據上半年產業鏈的消息,Llama 38B和70B的訓練需要24000多塊H100組成的集群;而據稱有1.8萬億參數的GPT-4則是在10000—25000張A100的集群上完成的訓練;就連參數僅30億的Sora,也用4200—10500塊H100訓練了1個月的時間。
這正好印證了摩爾線程創始人張建中日前的一個觀點:“在AI模型訓練的主戰場上,萬卡還僅僅只是標配”。7月3日,摩爾線程在AI DAY上宣布了其夸娥(KUAE)萬卡智算集群解決方案的重大升級,這不僅是摩爾線程技術創新的里程碑,更是國產GPU技術發展的一次重要飛躍。
萬卡智算,無縫擴展
萬卡集群指的是由一萬張及以上的計算加速卡(如GPU)組成的高性能計算系統,用以訓練基礎大模型。這種集群充分整合高性能GPU計算、高性能RDMA網絡、高性能并行文件存儲、智算平臺等關鍵技術,將底層基礎設施整合成為一臺“超級計算機”,可支持千億級甚至萬億級參數規模的大模型訓練,有助于大幅壓縮大模型訓練時間,以實現模型能力的快速迭代。
張建中說:“構建萬卡集群并非一萬張GPU卡的簡單堆疊,而是一項高度復雜的超級系統工程?!逼涿媾R的主要挑戰包括如何實現超大規模組網互聯、如何提高集群有效計算效率、保證訓練高穩定與高可用以及擁有故障快速定位能力和可診斷工具等。
據張建中介紹,全新一代夸娥智算集群能實現單集群規模超萬卡,浮點運算能力達到10Exa-Flops,顯存總容量達到PB級,卡間互聯總帶寬和節點互聯總帶寬均達到每秒PB級。同時,夸娥萬卡集群的平均無故障運行時間超過15天,最長可實現大模型穩定訓練30天以上,希望可以對標行業最高水準。
此外,在優化方面,夸娥萬卡集群通過系統軟件、框架、算法等層面的一系列優化,實現了大模型的高效率訓練,MFU最高可達60%。此外,夸娥萬卡集群是一個通用加速計算平臺,支持多種不同架構和模態的大模型,具有高效易用的MUSA編程語言和完整兼容CUDA的能力,加速新模型的遷移和生態適配。
產業協同:共建大模型應用生態
摩爾線程的夸娥萬卡智算集群不僅僅是一項技術成果,更是一個產業協同的典范。在AI DAY發布會上,摩爾線程與多家企業進行了戰略簽約,共同構建國產GPU集群。張建中提到:“我們希望摩爾線程的加速平臺能夠加速一切計算,只是和計算相關的都可以在上面加速?!?/p>
發布會現場,摩爾線程攜手中國移動通信集團青海有限公司、中國聯通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司(排名不分先后),分別就青海零碳產業園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰略簽約。
借助摩爾線程先進的夸娥全棧智算解決方案,各方將攜手共建強大的全國產智算平臺,以加速產業數字化轉型和高質量發展??涠鹑f卡智算集群項目標志著國產AI算力基礎設施的又一重大進展,將為各地的數字經濟發展注入新活力。
發布會后,無問芯穹、清程極智、360、京東云、智平方等五家合作伙伴代表紛紛登臺,分享了夸娥智算集群在不同場景和領域的創新應用,展現了其在實際應用中的巨大潛力與廣泛適用性。
在接受采訪時,張建中提出,GPU產業的自主生態建設是必須的,但兼容國際主流生態也同樣重要,只有兩條腿走路才能讓產品更快地走向市場。而生態的適配、生態的發展能不能做得很好,則是全行業上下游的生態合作伙伴們一起努力的結果。
百花齊放,資源共享
自ChatGPT顛覆式創新引爆生成式大模型發展后,全球數百個大模型爭先恐后地走向市場,形成百模大戰之態勢。但也有人認為,通用大模型的重復性建設是群模亂舞,未來將僅有個位數通用大模型存活下來。
對此,張建中認為,正如人類不應該只有一個大腦一樣,Foundation Model還是越多越好?!叭祟惷總€人都有自己的觀點,有自己的看法和認知,人類才得以不停地進步和發展,這對于大模型也一樣,”張建中如是說。
張建中強調, 隨著人類大腦的進步,對各種各樣信息的攝入量不斷增長,千行百業的專業知識都在逐漸轉變為“常識”。另外,由于一些需要隱私保護的行業數據無法共享,這些行業都需要自己的Foundation Model,因此未來通用大模型一定會是百花齊放的狀態。
目前,許多成熟的大模型雖然已經開始投入到人們的生活和工作中,但仍然無法滿足人們的要求,這正是因為訓練側算力不夠所導致。至于什么量級的算力集群能夠讓一個大模型做到足夠“聰明”呢?張建中認為或許應是百萬卡級別。
不過,如果張建中所言,目前百模大戰的背景下,萬卡是標配。顯然算力資源正因Foundation Model過多而被分散,這將導致很難有足夠的GPU能夠集中訓練出完美的大模型,或者說,這一天會更晚到來。
對此,張建中也表示:“大規模的算力資源應該由建設方和運營商對全社會開放使用,而不是被據為己有。且當集群發展到百萬卡級別時,將沒有任何一家企業能夠獨自負擔。”
摩爾線程打造的夸娥是一個通用加速的計算平臺,其目標也是希望通過夸娥智算集群,以規模夠大、計算更通用、生態兼容好的加速計算平臺,為美好世界加速。這種理念很好地順應了算力資源集中的發展趨勢,隨著技術的不斷優化和生態的不斷完善,夸娥萬卡智算集群必將在AI產業的發展中發揮越來越重要的作用。