華為AI 推理技術亮相 以軟體面對硬體挑戰

華為昨(12)日發表AI推理創新技術─推理記憶數據管理器(UCM),這項突破性成果將通過多級快取顯著最佳化AI推理體驗與性價比,且有望降低中國大陸AI推理對高頻寬記憶體(HBM)技術的依賴,提升大陸AI大模型推理性能,打破美國封鎖大陸取得HBM的瓶頸,而華為也宣布該技術將9月正式開源(開放程式碼)。
用軟體對付硬體 試圖突破美國封鎖
美中科技戰方興未艾,美國早在去年就限制大陸取得先進HBM,HBM是AI晶片的心臟,負責資料高速傳輸,其性能直接決定AI算力集群效率,美國智庫CSIS專家指出,HBM約占先進AI晶片成本的50%,封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。
新浪財經報導,華為昨天參加2025金融AI推理應用落地與發展論壇,首度推出的UCM技術,其為一款以以KV Cache和記憶管理(已計算的先存起來,下次直接拿來用不必再重算)為中心的推理加速套件,提供全場景系列化推理加速方案,通過推理框架、算力、儲存三層協同,最佳化Tokens在各業務環節中流轉的效率,以實現AI推理的更優體驗、更低成本。
據了解,HBM作為解決數據搬運問題的關鍵技術,在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時,用戶在使用AI推理時會明顯感受到體驗下降,任務卡頓、回應緩慢等問題接踵而至。
UCM技術透過優化KV Cache記憶資料管理,使首每個文字單位(Token)時延最大降低90%,同時降低Token的推理成本。這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點,推理體驗直接關聯用戶滿意度和商業可行性,成為衡量模型價值的重要標準。
九月開源 預告Token經濟時代到來
華為計畫在今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,希望通過開放開放原始碼的方式,讓業界共享這一成果,共同推動AI推理生態的繁榮發展。
同時,華為與中國銀聯率先在金融典型場景開展UCM技術試點應用,並聯合發佈智慧金融AI推理加速方案應用成果。華為公司副總裁、資料儲存產品線總裁周躍峰談道,AI在金融行業大規模使用,推理效率與體驗是關鍵;模型訓練、推理效率與體驗的量綱都以Token數為表徵,Token經濟時代到來。
AI推理應用落地過程中面臨三大挑戰:
- 推不動(輸入超出模型上下文窗口)
- 推得慢(美國大模型推理首Token時延=中國大模型的1/2)
- 推得貴(美國大模型推理吞吐率大約是中國大模型的10倍)