星期二, 26 8 月

华为携中国银联发表 AI 推理加速技术 降低对 HBM 依赖

华为将于明(12)日与中国银联在「2025金融AI推理应用落地与发展论坛」发布推理加速技术。据透露,该技术或能降低大陆AI推理对高频宽记忆体(HBM)的依赖。

HBM是基于3D堆叠的高性能DRAM,具高频宽、低延迟等优势,允许GPU直接访问完整模型,避免DDR频宽不足导致算力闲置,显著提升千亿参数大模型推理响应速度。

目前,HBM在高端AI晶片的训练端渗透率接近100%,同时推理端随模型复杂化而加速普及。然而,其产能紧张和美国出口限制倒逼大陆厂去探索Chiplet封装、低参数模型优化等替代方案。

IT之家提到,华为曾与北大合作DeepSeek全栈方案,升腾平台单卡Decode每秒处理突破1,920 Tokens/s,时延降50%。与科大讯飞合作实现MoE模型大规模并行推理,处理速度增3.2倍。

中国基金报引述业内人士,AI产业正从「追求模型极限」转向「应用价值最大化」,推理成为下一阶段重心。HBM是解决「数据搬运」关键,HBM不足会导致推理卡顿、响应慢。

大陆通讯行业网站C114通信网则指,算力和存储是训练与推理率先受益领域,大陆国产化趋势下决定未来十年AI胜负。但大陆国产HBM与海外存技术差距,在产能紧张和美国限制下,「弯道超车」是华为等陆企突破的重要方向。

$(document).ready(function () {nstockStoryStockInfo();});