中信证券：存算上下文长度激增显存优化不改存力爆发需求

来源：智通财经 2026-03-31 10:05

中信证券发布研报称，看好Agent AI时代存力提升下存算产业趋势，近存计算高景气，看好HBM及CUBE产业链；同时存储紧缺下主流至利基存储全面缺货涨价，预计26Q2存储价格涨幅环比Q1涨幅接近，预计行业供不应求至少到2027年底。核心推荐：存储模组公司，短期业绩爆发能力强；存储原厂及贴近原厂的设计公司。

中信证券主要观点如下：

Agent AI时代上下文长度激增，存力在容量提升和优化下仍为重要瓶颈

AI从“简单对话”向“智能体（Agent）”演进，驱动上下文需求从8K激增至1M tokens，单用户FP16精度下的KV Cache显存占用从5GB飙升至640GB以上（Llama-3-70B，GQA级别为例）。据Epoch AI数据，最长上下文窗口约每年增长30x（从2023年中开始计算，过去约2-3年累计数百倍）。有效使用长度（模型能可靠处理的长度，在长上下文基准上达到80%准确率）提升更快，部分基准显示过去9个月内提升超250x；但单卡HBM容量在3年内提升约3~4倍（以英伟达产品为例，据英伟达官网，H100 HBM容量80GB，2025/26年发布的GB300和Rubin容量增长至288GB），叠加从FP16转向INT4/FP4的量化降低KV Cache显存占用，总有效容量提升约12~16倍，这仍远低于显存需求增幅。显存需求的指数级膨胀与HBM容量、成本间的矛盾使得显存优化为必然，也为Agent AI进一步爆发提供保证。

目前大模型厂商、硬件厂商主要通过量化、分层存储、模型架构优化的方式解决存力瓶颈

1）量化（Quantization）：是目前最直接、最广泛采用的内存压缩手段，谷歌TurboQuant就是其中之一。在此之前，DeepSeekV3是首个真正大规模采用FP8混合精度训练的开源大模型，相比此前常用的BF16精度显著节省内存占用。

2）分层存储：例如英伟达在Rubin平台中引入推理上下文记忆存储（ICMS）平台，据英伟达官网，该平台构建了一个上下文记忆层（通过以太网连接的闪存层级，专门针对KV Cache进行优化），通过保持延迟敏感、可复用的推理上下文并对其进行预加载来提高GPU利用率，从而增强现有的网络对象和文件存储，使吞吐量（TPS）提高了5倍，并且比传统存储的能效提高了5倍。

3）模型架构优化：GQA/MQA（Grouped/Multi-Query Attention）已经是Llama、Mistral等主流模型标配，KV Heads远少于Query Heads，显著降低KV Cache占用。MLA（Multi-Head Latent Attention）是DeepSeek在DeepSeek-V2中首次提出的新型注意力机制，也是专门为了解决KV cache内存瓶颈而设计的架构级创新。

显存优化为持续趋势，看好Agent AI时代存力爆发需求

根据“杰文斯悖论”，算法效率的提升会大幅降低单Token生成成本，进而刺激用户开启更高并发与更长上下文，最终导致总存力需求不减反增。英伟达GTC 2026大会上着重提出了“Token工厂经济学”，其核心意义在于强化了存储在AI基础设施中的战略地位——带宽与容量等存力指标已成为系统升级的核心，类似TurboQuant降低单token生成成本，助力云厂商提升资本回报率，支撑AI Capex持续投资，同时这也意味着存储产业的盈利天花板将被长期打开。

风险因素

全球宏观经济低迷风险；下游需求不及预期；创新不及预期；国际产业环境变化和贸易摩擦加剧风险；算力升级进度不及预期；云厂商资本开支不及预期等。

(来源：

智通财经)

原标题：

中信证券：存算上下文长度激增显存优化不改存力爆发需求

免责声明：本页所载内容来旨在分享更多信息，不代表九方智投观点，不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。

写评论