/朝聞通/2023年7月10日廣州消息——當前,生成式AI(AIGC)已經成為AI産業化發展的主戰場,随着大模型參數量和數據量的爆發式增長,多源異構數據的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一。為了化解生成式AI的數據存儲與管理瓶頸,浪潮信息在“數智未來”AIGC數據應用創新論壇上,正式發布面向生成式AI的存儲解決方案,該方案以極緻融合、極緻性能、極緻節能,和熱溫冷冰四級數據全生命周期管理,助力開啟生成式AI新局面,創造智慧時代新機遇。
生成式AI亟待突破多源異構和存儲性能瓶頸
生産式AI是人工智能從1.0時代進入2.0時代的重要标志,其具備強大的認知智能,在搜索引擎、藝術創作、影音遊戲,以及金融、教育、醫療、工業等領域有着廣闊的應用前景。Gartner預測,到2023年将有20%的内容被AIGC所創建;到2025年人工智能生成數據占比将達到10%。據分析師預測,到2032年,生成式人工智能市場規模将達到2,000億美元,占據人工智能支出總額的約20%,顯著高出當前的5%。換言之,未來十年市場規模可能每兩年就會翻一番。
生成式AI主要應用場景涵蓋文本生成、語音生成、圖片生成、視頻生成、代碼生成、虛拟人生成等,在每種應用的背後是基于行業上下遊對數據進行采集、标注、訓練、推理、歸檔,其特征是數據量大、多元數據類型複雜、服務協議多樣、性能要求苛刻、要求服務持續在線。生成式AI對數據存儲提出如下挑戰:
異構數據的融合:生成式AI訓練模型的數據呈現來源多、格式多的多源異構現狀,傳統存儲面向單一數據類型設計,需要以搬移數據的方式實現多協議訪問,存儲成為應用平台的關鍵瓶頸;
持續的低延遲與高帶寬:模型訓練過程中,頻繁地從數據集取Token,每個Token一般4字節,實時高并發小IO性能需要極低的延遲;存儲模型Checkpoint時,為Checkpoint數據可快速寫入,需要高帶寬;
EB級大容量存儲需求:越多的數據投喂結果越精準的工作原理,決定了大模型訓練存在深度學習網絡層數多、連接多、參數和數據集種類複雜、數據量大的特征,随着模型參數和數據量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。
數據存儲産業需要進行全方位的技術升級,通過在多源異構融合、數據高速傳輸、海量數據管理等方面持續創新,打造專業的生成式AI存儲産品與解決方案。
浪潮信息讓生成式AI智慧有數
浪潮信息是最早布局大模型的企業之一,打造了算力、算法、數據全棧的解決方案能力。在數據存儲領域,浪潮信息準确識别行業痛點、積極布局,經過持續攻關,在融合存儲架構、系統性能設計、數據全生命周期管理算法等方面不斷突破,打造出生成式AI存儲解決方案。
浪潮信息生成式AI存儲解決方案基于AS13000融合存儲系統,可以支撐AIGC産業上中下遊業務應用,并針對不同業務階段的數據存儲需求,提供熱溫冷冰四級存儲,實現數據在各級存儲間自動流轉。用高性能節點形态來滿足數據訓練、數據推理兩個階段的高帶寬、低延時、高并行讀寫性能存儲需求,用大容量節點形态來滿足數據采集、數據準備、數據歸檔三個階段的海量多元數據存儲需求,方案具備極緻融合、極緻性能、極緻節能三大能力,以及熱、溫、冷、冰四級數據全生命周期存儲管理能力,助力生成式AI突破海量數據存力瓶頸,加速釋放數據的價值。
目前,浪潮信息生成式AI存儲解決方案已經在全球領先的中文語言大模型“源1.0”中成功落地,面對千億級參數量和數據量帶來的挑戰,浪潮信息通過AS13000高吞吐并行存儲系統實現了多存儲協議互通、數據融合,利用全閃的極緻性能,助力“源1.0”大模型實現了16天完成訓練的超高效率。國内AI翹楚公司采用浪潮信息提供的并行文件存儲,承載5000億參數量的NLP語言類大模型的數據集Token和CheckPoint文件,輕松應對大/小文件的讀寫挑戰,配置AS13000全閃存儲集群,支持高性能RocE組網和GPU直通存儲功能,帶寬超過300GB、存儲性能超過350萬 IOPS,保證存儲集群的高可用與敏捷擴容。
面對生成式AI掀起的變革熱潮,誰能掌握數字化變革的先機,誰就能把握未來AI革命的緻勝關鍵,而數據底座将成為千行百業創新變革的重要基石。浪潮信息存儲秉承“存儲即平台”的産品理念,精耕數據存儲産品與解決方案,攜手合作夥伴,助力生成式AI在金融虛拟客服、圖片編輯設計、智能駕駛、跨模态檢索等場景的落地,激活數據要素新潛能,駕馭智慧化轉型新趨勢,在機遇與挑戰并存的新格局下,為行業轉型注入新價值、新動能。(柯岩)