华为携中国银联发表 AI 推理加速技术降低对 HBM 依赖

华为将于明（12）日与中国银联在「2025金融AI推理应用落地与发展论坛」发布推理加速技术。据透露，该技术或能降低大陆AI推理对高频宽记忆体（HBM）的依赖。

HBM是基于3D堆叠的高性能DRAM，具高频宽、低延迟等优势，允许GPU直接访问完整模型，避免DDR频宽不足导致算力闲置，显著提升千亿参数大模型推理响应速度。

目前，HBM在高端AI晶片的训练端渗透率接近100%，同时推理端随模型复杂化而加速普及。然而，其产能紧张和美国出口限制倒逼大陆厂去探索Chiplet封装、低参数模型优化等替代方案。

IT之家提到，华为曾与北大合作DeepSeek全栈方案，升腾平台单卡Decode每秒处理突破1,920 Tokens/s，时延降50%。与科大讯飞合作实现MoE模型大规模并行推理，处理速度增3.2倍。

中国基金报引述业内人士，AI产业正从「追求模型极限」转向「应用价值最大化」，推理成为下一阶段重心。HBM是解决「数据搬运」关键，HBM不足会导致推理卡顿、响应慢。

大陆通讯行业网站C114通信网则指，算力和存储是训练与推理率先受益领域，大陆国产化趋势下决定未来十年AI胜负。但大陆国产HBM与海外存技术差距，在产能紧张和美国限制下，「弯道超车」是华为等陆企突破的重要方向。

$(document).ready(function () {nstockStoryStockInfo();});

🔗 您可能感兴趣的内容: