本报告导读:
DRAM 的长远命题在于从2D 转向3D 架构。海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU 作为协处理器的运用叠加3D DRAM 极有可能是下一代的端侧技术趋势。
投资要点:
行业观点及投 资建议。NPU作为协处理器的运用叠加3D DRAM 极有可能是下一代的端侧技术趋势,给予行业“增持”评级,推荐兆易创新。
DRAM 制程微缩放缓,长远命题在于从2D 转向3D 架构。随着DRAM 制程节点不断缩小,目前DRAM 芯片工艺已经突破到了10nm 级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显,要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。随着DRAM 芯片制程愈发先进,长远命题在于从2D 转向3D 架构;混合键合方案改进了Micro bump 的堆叠高度限制等问题,代表3D DRAM 未来技术路径。从技术差异上来说,WoW 3D DRAM 与CUBE 及现有的HBM 方案主要差异在于键合方式分别为混合键合与Micro bump。与已广泛使用的Micro Bump 堆叠技术相比,混合键合不配置凸块,可容纳较多堆叠层数,也能容纳较厚的晶粒厚度,以改善翘曲问题。使用混合键合方案的芯片传输速度较快,散热效果也较好。考虑到堆叠高度限制、IO 密度、散热等要求,三大HBM 原厂已确定于HBM5 20hi 世代使用HybridBonding。
AI 应用目前在走向百花齐放,而不是高度范化的统一模型。硬件侧在为应用的落地酝酿很多新技术储备,这些机会更加重要。MOE 模型开始驱动小的大模型,小型MoE 模型Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的10%,表现更胜一筹,激活10%参数量却能超过满血模型,也为端侧应用提供了模型基础。我们认为,海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU 作为协处理器的运用叠加3D DRAM 极有可能是下一代的端侧技术趋势。
当前AI 端侧推理速度的主要瓶颈在内存带宽而非算力,内存限制问题由3D DRAM 解决。以高通骁龙8GEN3 为例,其NPU 算力约45 TOPs,内存带宽约为67 GB/s,若运行7B 大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。DRAM+NPU 通过HB 堆叠的形式合封,我们假设以800 GB/s 的内存带宽代入上述高通骁龙8GEN3 的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP 龙头高通等,均发力3D DRAM+NPU 方案,技术趋势明确。
风险提示。AI 应用渗透不及预期;3D DRAM 技术发展不及预期。



