您在這裡

華為AI 推理技術亮相以軟體面對硬體挑戰

2025/08/13

華為昨（12）日發表AI推理創新技術─推理記憶數據管理器（UCM），這項突破性成果將通過多級快取顯著最佳化AI推理體驗與性價比，且有望降低中國大陸AI推理對高頻寬記憶體（HBM）技術的依賴，提升大陸AI大模型推理性能，打破美國封鎖大陸取得HBM的瓶頸，而華為也宣布該技術將9月正式開源（開放程式碼）。

用軟體對付硬體試圖突破美國封鎖

美中科技戰方興未艾，美國早在去年就限制大陸取得先進HBM，HBM是AI晶片的心臟，負責資料高速傳輸，其性能直接決定AI算力集群效率，美國智庫CSIS專家指出，HBM約占先進AI晶片成本的50%，封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。

新浪財經報導，華為昨天參加2025金融AI推理應用落地與發展論壇，首度推出的UCM技術，其為一款以以KV Cache和記憶管理（已計算的先存起來，下次直接拿來用不必再重算）為中心的推理加速套件，提供全場景系列化推理加速方案，通過推理框架、算力、儲存三層協同，最佳化Tokens在各業務環節中流轉的效率，以實現AI推理的更優體驗、更低成本。

據了解，HBM作為解決數據搬運問題的關鍵技術，在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時，用戶在使用AI推理時會明顯感受到體驗下降，任務卡頓、回應緩慢等問題接踵而至。

UCM技術透過優化KV Cache記憶資料管理，使首每個文字單位（Token）時延最大降低90%，同時降低Token的推理成本。這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點，推理體驗直接關聯用戶滿意度和商業可行性，成為衡量模型價值的重要標準。