IT之家 2 月 4 日消息,據(jù)“華為計算”今日消息,隨著大語言模型迅猛發(fā)展,參數(shù)量已邁入千億甚至萬億級別,MoE(IT之家注:混合專家)稀疏架構憑借兼顧模型容量與計算效率的優(yōu)勢,成為 AI 領域核心研究方向。
在此背景下,南京大學李猛博士團隊,依托南京大學鯤鵬昇騰科教創(chuàng)新孵化中心的算力支持,基于華為昇騰,開展專家等價性驅(qū)動的 MoE 無損顯存高效優(yōu)化研究,成功攻克系列技術瓶頸,實現(xiàn)顯存消耗降低 50% 以上、推理延遲顯著提升的重要突破。
項目聚焦 MoE 模型部署的核心痛點:大參數(shù)量模型部署時,高顯存占用導致僅能駐留少量熱專家,大量參數(shù)需頻繁在內(nèi)存與顯存間切換,引發(fā)嚴重推理延遲;同時,自主化硬件適配需求日益迫切。
團隊基于對 MoE 專家冗余性與等價性的創(chuàng)新觀察,提出軟硬件協(xié)同優(yōu)化方案,通過四項核心技術構建異構推理混合部署框架,實現(xiàn)全鏈路效率提升。
依托昇騰的硬件特性與 CANN 軟件棧,團隊針對性研發(fā)異構推理加速引擎 MoE-Ascend,涵蓋動態(tài)專家路由管理、專家預測預取、算子適配等核心功能模塊,實現(xiàn)昇騰平臺的深度適配與優(yōu)化。
該引擎可支持昇騰等多硬件環(huán)境,在保持模型精度無損的前提下,不僅將顯存消耗降至原方案的一半,推理速度也較同類方法提升 2 倍以上,提升顯存緩存命中率到 70% 以上,破解 MoE 模型對國外高端硬件的依賴。
該項目構建的推理優(yōu)化工具鏈計劃開源至昇騰社區(qū)、DeepModeling 社區(qū)及 GitHub,供科研與工程開發(fā)者復用擴展。
未來,項目成果將應用于 AI 推理平臺、智能客服、語音生成等多個場景,尤其適配昇騰等自主 NPU 部署環(huán)境,為邊緣側智能服務提供支撐。