華為AI 推理技術亮相 以軟體面對硬體挑戰

華為昨(12)日發表AI推理創新技術─推理記憶數據管理器(UCM),這項突破性成果將通過多級快取顯著最佳化AI推理體驗與性價比,且有望降低中國大陸AI推理對高頻寬記憶體(HBM)技術的依賴,提升大陸AI大模型推理性能,打破美國封鎖大陸取得HBM的瓶頸,而華為也宣布該技術將9月正式開源(開放程式碼)。

用軟體對付硬體 試圖突破美國封鎖

美中科技戰方興未艾,美國早在去年就限制大陸取得先進HBM,HBM是AI晶片的心臟,負責資料高速傳輸,其性能直接決定AI算力集群效率,美國智庫CSIS專家指出,HBM約占先進AI晶片成本的50%,封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。

新浪財經報導,華為昨天參加2025金融AI推理應用落地與發展論壇,首度推出的UCM技術,其為一款以以KV Cache記憶管理(已計算的先存起來,下次直接拿來用不必再重算)為中心的推理加速套件,提供全場景系列化推理加速方案,通過推理框架、算力、儲存三層協同,最佳化Tokens在各業務環節中流轉的效率,以實現AI推理的更優體驗、更低成本。

據了解,HBM作為解決數據搬運問題的關鍵技術,在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時,用戶在使用AI推理時會明顯感受到體驗下降,任務卡頓、回應緩慢等問題接踵而至。

UCM技術透過優化KV Cache記憶資料管理,使首每個文字單位(Token)時延最大降低90%,同時降低Token的推理成本。這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點,推理體驗直接關聯用戶滿意度和商業可行性,成為衡量模型價值的重要標準。

九月開源 預告Token經濟時代到來

華為計畫在今年9月正式開源UCM,屆時將在魔擎社區首發,後續逐步貢獻給業界主流推理引擎社區,希望通過開放開放原始碼的方式,讓業界共享這一成果,共同推動AI推理生態的繁榮發展。

同時,華為與中國銀聯率先在金融典型場景開展UCM技術試點應用,並聯合發佈智慧金融AI推理加速方案應用成果。華為公司副總裁、資料儲存產品線總裁周躍峰談道,AI在金融行業大規模使用,推理效率與體驗是關鍵;模型訓練、推理效率與體驗的量綱都以Token數為表徵,Token經濟時代到來。

AI推理應用落地過程中面臨三大挑戰:

  • 推不動(輸入超出模型上下文窗口)
  • 推得慢(美國大模型推理首Token時延=中國大模型的1/2)
  • 推得貴(美國大模型推理吞吐率大約是中國大模型的10倍)

相關新聞

聯合聲明以國際清算銀行 (BIS) 的名義發布,並向所有央行開放簽署,歐洲央行、英國、加拿大、澳洲、南韓、巴西及法國等多國央行首長參與。...
美國司法部對聯準會(Fed)主席 鮑爾 啟動刑事調查,震撼美國與全球金融體系。調查源於聯準會總部兩棟歷史建築翻修案高達25億美元的成本超支...
台積電於去年3月宣布加碼投資美國達千億美元,成為台灣企業史上規模最大的赴美投資案。此舉不僅被視為深化台美半導體合作的重要里程碑,...
歷時逾二十五年的南方共同市場(Mercosur)自由貿易協定近日取得關鍵進展,在歐洲議會通過後,預計將由歐盟與阿根廷、巴西、...