半导体行业：AI手机的离线推理速度取决于内存带宽瓶颈的突破大厂竞逐3DDRAM+NPU方案技术趋势明确

本报告导读：

当前推理速度主要瓶颈在于内存带宽而非算力，NPU+DRAM 堆叠后内存带宽呈现数量级提升，这一技术方案产业趋势明确。

投资要点：

行业观点及投资建议。当前推理速度主要瓶颈在于内存带宽而非算力，NPU+DRAM 堆叠后内存带宽呈现数量级提升，这一技术方案产业趋势明确。给予行业“增持”评级，推荐兆易创新（已覆盖）。

当前主要瓶颈在内存带宽，而非算力。以高通骁龙8GEN3 为例，其NPU 算力约45 TOPs，内存带宽约为67 GB/s，若运行7B 大模型，代入前述公式得到计算能力限制约3215 tokens/s，内存带宽限制约4.8 tokens/s，最终速度取两者中的最小值，确保实际推理不受硬件瓶颈限制，而其内存限制瓶颈明显远大于计算限制。以小米手机离线实测Qwen3-8B-MNN 模型来看，Decode: 222 tokens，7.04 tokens/s，综合而言问题平均回复时间32 秒，对用户而言，相对无感的推理速度需达40-50 tokens/s。

端侧AI 内存限制问题由3D DRAM 解决。DRAM+NPU 通过HB 堆叠的形式合封，我们假设以800 GB/s 的内存带宽代入上述高通骁龙8GEN3 的问题，内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成，以及中国台湾存储IDM华邦电、手机AP 龙头高通等，均发力3D DRAM+NPU 方案，技术趋势明确。

端侧AI 是先有模型还是先有硬件？我们认为，产业现阶段为硬件领先于模型，而未来是模型爆发吃硬件红利。模型可以在一夜之间涌现能力，但硬件不能。通常而言，如果硬件方案没有经过几年以上的稳定性测试，无法在数亿量级产品端进行商用。现在的手机AP龙头高通必须主动采用适合AI 大模型设备的策略，以防止被手机端“GPU”革命的风险。如若手机AI 在2025 年底或2026 年商用爆发，准备好硬件与模型的企业将迎来至少一年的红利窗口期，这一年足够决胜负。

风险提示：AI 应用渗透不及预期；技术发展不及预期。

行情