本报告导读:
当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM 堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。
投资要点:
行业观点及投 资建议。当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM 堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。给予行业“增持”评级,推荐兆易创新(已覆盖)。
当前主要瓶颈在内存带宽,而非算力。以高通骁龙8GEN3 为例,其NPU 算力约45 TOPs,内存带宽约为67 GB/s,若运行7B 大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。以小米手机离线实测Qwen3-8B-MNN 模型来看,Decode: 222 tokens,7.04 tokens/s,综合而言问题平均回复时间32 秒,对用户而言,相对无感的推理速度需达40-50 tokens/s。
端侧AI 内存限制问题由3D DRAM 解决。DRAM+NPU 通过HB 堆叠的形式合封,我们假设以800 GB/s 的内存带宽代入上述高通骁龙8GEN3 的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP 龙头高通等,均发力3D DRAM+NPU 方案,技术趋势明确。
端侧AI 是先有模型还是先有硬件?我们认为,产业现阶段为硬件领先于模型,而未来是模型爆发吃硬件红利。模型可以在一夜之间涌现能力,但硬件不能。通常而言,如果硬件方案没有经过几年以上的稳定性测试,无法在数亿量级产品端进行商用。现在的手机AP龙头高通必须主动采用适合AI 大模型设备的策略,以防止被手机端“GPU”革命的风险。如若手机AI 在2025 年底或2026 年商用爆发,准备好硬件与模型的企业将迎来至少一年的红利窗口期,这一年足够决胜负。
风险提示:AI 应用渗透不及预期;技术发展不及预期。



