華為AI 推理技術亮相 以軟體面對硬體挑戰

華為昨(12)日發表AI推理創新技術─推理記憶數據管理器(UCM),這項突破性成果將通過多級快取顯著最佳化AI推理體驗與性價比,且有望降低中國大陸AI推理對高頻寬記憶體(HBM)技術的依賴,提升大陸AI大模型推理性能,打破美國封鎖大陸取得HBM的瓶頸,而華為也宣布該技術將9月正式開源(開放程式碼)。

用軟體對付硬體 試圖突破美國封鎖

美中科技戰方興未艾,美國早在去年就限制大陸取得先進HBM,HBM是AI晶片的心臟,負責資料高速傳輸,其性能直接決定AI算力集群效率,美國智庫CSIS專家指出,HBM約占先進AI晶片成本的50%,封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。

新浪財經報導,華為昨天參加2025金融AI推理應用落地與發展論壇,首度推出的UCM技術,其為一款以以KV Cache記憶管理(已計算的先存起來,下次直接拿來用不必再重算)為中心的推理加速套件,提供全場景系列化推理加速方案,通過推理框架、算力、儲存三層協同,最佳化Tokens在各業務環節中流轉的效率,以實現AI推理的更優體驗、更低成本。

據了解,HBM作為解決數據搬運問題的關鍵技術,在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時,用戶在使用AI推理時會明顯感受到體驗下降,任務卡頓、回應緩慢等問題接踵而至。

UCM技術透過優化KV Cache記憶資料管理,使首每個文字單位(Token)時延最大降低90%,同時降低Token的推理成本。這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點,推理體驗直接關聯用戶滿意度和商業可行性,成為衡量模型價值的重要標準。

九月開源 預告Token經濟時代到來

華為計畫在今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,希望通過開放開放原始碼的方式,讓業界共享這一成果,共同推動AI推理生態的繁榮發展。

同時,華為與中國銀聯率先在金融典型場景開展UCM技術試點應用,並聯合發佈智慧金融AI推理加速方案應用成果。華為公司副總裁、資料儲存產品線總裁周躍峰談道,AI在金融行業大規模使用,推理效率與體驗是關鍵;模型訓練、推理效率與體驗的量綱都以Token數為表徵,Token經濟時代到來。

AI推理應用落地過程中面臨三大挑戰:

  • 推不動(輸入超出模型上下文窗口)
  • 推得慢(美國大模型推理首Token時延=中國大模型的1/2)
  • 推得貴(美國大模型推理吞吐率大約是中國大模型的10倍)

相關新聞

美國總統川普25日簽署行政命令,宣布他將把中資公司TikTok美國業務出售給美國和全球投資者的計劃,...
數位人民幣國際運營中心24日在上海正式營運,將進一步推進數位人民幣的國際運營與金融市場業務發展。中國央行副行長陸磊介紹,...
美國總統川普本(9)月 22 日在聯合國向各國領袖表示,在七個月的時間裡,他已經結束了「七場無法結束的戰爭」,並批道聯合國並沒有任何幫助。
超過 200 位科技圈資深老將、政界人士與諾貝爾獎得主今天呼籲全球各國,迅速為人工智慧(AI)劃定不得逾越的危險「紅線」。