行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递

中信证券:存算上下文长度激增 显存优化不改存力爆发需求

来源:智通财经 2026-03-31 10:05
点赞
收藏

中信证券发布研报称,看好Agent AI时代存力提升下存算产业趋势,近存计算高景气,看好HBM及CUBE产业链;同时存储紧缺下主流至利基存储全面缺货涨价,预计26Q2存储价格涨幅环比Q1涨幅接近,预计行业供不应求至少到2027年底。核心推荐:存储模组公司,短期业绩爆发能力强;存储原厂及贴近原厂的设计公司。

中信证券主要观点如下:

Agent AI时代上下文长度激增,存力在容量提升和优化下仍为重要瓶颈

AI从“简单对话”向“智能体(Agent)”演进,驱动上下文需求从8K激增至1M tokens,单用户FP16精度下的KV Cache显存占用从5GB飙升至640GB以上(Llama-3-70B,GQA级别为例)。据Epoch AI数据,最长上下文窗口约每年增长30x(从2023年中开始计算,过去约2-3年累计数百倍)。有效使用长度(模型能可靠处理的长度,在长上下文基准上达到80%准确率)提升更快,部分基准显示过去9个月内提升超250x;但单卡HBM容量在3年内提升约3~4倍(以英伟达产品为例,据英伟达官网,H100 HBM容量80GB,2025/26年发布的GB300和Rubin容量增长至288GB),叠加从FP16转向INT4/FP4的量化降低KV Cache显存占用,总有效容量提升约12~16倍,这仍远低于显存需求增幅。显存需求的指数级膨胀与HBM容量、成本间的矛盾使得显存优化为必然,也为Agent AI进一步爆发提供保证。

目前大模型厂商、硬件厂商主要通过量化、分层存储、模型架构优化的方式解决存力瓶颈

1)量化(Quantization):是目前最直接、最广泛采用的内存压缩手段,谷歌TurboQuant就是其中之一。在此之前,DeepSeekV3是首个真正大规模采用FP8混合精度训练的开源大模型,相比此前常用的BF16精度显著节省内存占用。

2)分层存储:例如英伟达在Rubin平台中引入推理上下文记忆存储(ICMS)平台,据英伟达官网,该平台构建了一个上下文记忆层(通过以太网连接的闪存层级,专门针对KV Cache进行优化),通过保持延迟敏感、可复用的推理上下文并对其进行预加载来提高GPU利用率,从而增强现有的网络对象和文件存储,使吞吐量(TPS)提高了5倍,并且比传统存储的能效提高了5倍。

3)模型架构优化:GQA/MQA(Grouped/Multi-Query Attention)已经是Llama、Mistral等主流模型标配,KV Heads远少于Query Heads,显著降低KV Cache占用。MLA(Multi-Head Latent Attention)是DeepSeek在DeepSeek-V2中首次提出的新型注意力机制,也是专门为了解决KV cache内存瓶颈而设计的架构级创新。

显存优化为持续趋势,看好Agent AI时代存力爆发需求

根据“杰文斯悖论”,算法效率的提升会大幅降低单Token生成成本,进而刺激用户开启更高并发与更长上下文,最终导致总存力需求不减反增。英伟达GTC 2026大会上着重提出了“Token工厂经济学”,其核心意义在于强化了存储在AI基础设施中的战略地位——带宽与容量等存力指标已成为系统升级的核心,类似TurboQuant降低单token生成成本,助力云厂商提升资本回报率,支撑AI Capex持续投资,同时这也意味着存储产业的盈利天花板将被长期打开。

风险因素

全球宏观经济低迷风险;下游需求不及预期;创新不及预期;国际产业环境变化和贸易摩擦加剧风险;算力升级进度不及预期;云厂商资本开支不及预期等。

(来源:
智通财经)
原标题:
中信证券:存算上下文长度激增 显存优化不改存力爆发需求

免责声明:本页所载内容来旨在分享更多信息,不代表九方智投观点,不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。

举报

写评论

声明:用户发表的所有言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。《九方智投用户互动发言管理规定》

发布
0条评论

暂无评论

赶快抢个沙发吧

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈