行情中心 沪深A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

半导体行业:AI手机的离线推理速度取决于内存带宽瓶颈的突破 大厂竞逐3DDRAM+NPU方案 技术趋势明确

国泰海通证券股份有限公司 2025-05-07

本报告导读:

当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM 堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。

投资要点:

行业观点及投 资建议。当前推理速度主要瓶颈在于内存带宽而非算力,NPU+DRAM 堆叠后内存带宽呈现数量级提升,这一技术方案产业趋势明确。给予行业“增持”评级,推荐兆易创新(已覆盖)。

当前主要瓶颈在内存带宽,而非算力。以高通骁龙8GEN3 为例,其NPU 算力约45 TOPs,内存带宽约为67 GB/s,若运行7B 大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。以小米手机离线实测Qwen3-8B-MNN 模型来看,Decode: 222 tokens,7.04 tokens/s,综合而言问题平均回复时间32 秒,对用户而言,相对无感的推理速度需达40-50 tokens/s。

端侧AI 内存限制问题由3D DRAM 解决。DRAM+NPU 通过HB 堆叠的形式合封,我们假设以800 GB/s 的内存带宽代入上述高通骁龙8GEN3 的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP 龙头高通等,均发力3D DRAM+NPU 方案,技术趋势明确。

端侧AI 是先有模型还是先有硬件?我们认为,产业现阶段为硬件领先于模型,而未来是模型爆发吃硬件红利。模型可以在一夜之间涌现能力,但硬件不能。通常而言,如果硬件方案没有经过几年以上的稳定性测试,无法在数亿量级产品端进行商用。现在的手机AP龙头高通必须主动采用适合AI 大模型设备的策略,以防止被手机端“GPU”革命的风险。如若手机AI 在2025 年底或2026 年商用爆发,准备好硬件与模型的企业将迎来至少一年的红利窗口期,这一年足够决胜负。

风险提示:AI 应用渗透不及预期;技术发展不及预期。

免责声明:以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈