中信证券:存算上下文长度激增 显存优化不改存力爆发需求
中信证券发布研报称,看好Agent AI时代存力提升下存算产业趋势,近存计算高景气,看好HBM及CUBE产业链;同时存储紧缺下主流至利基存储全面缺货涨价,预计26Q2存储价格涨幅环比Q1涨幅接近,预计行业供不应求至少到2027年底。核心推荐:存储模组公司,短期业绩爆发能力强;存储原厂及贴近原厂的设计公司。
中信证券主要观点如下:
Agent AI时代上下文长度激增,存力在容量提升和优化下仍为重要瓶颈
AI从“简单对话”向“智能体(Agent)”演进,驱动上下文需求从8K激增至1M tokens,单用户FP16精度下的KV Cache显存占用从5GB飙升至640GB以上(Llama-3-70B,GQA级别为例)。据Epoch AI数据,最长上下文窗口约每年增长30x(从2023年中开始计算,过去约2-3年累计数百倍)。有效使用长度(模型能可靠处理的长度,在长上下文基准上达到80%准确率)提升更快,部分基准显示过去9个月内提升超250x;但单卡HBM容量在3年内提升约3~4倍(以英伟达产品为例,据英伟达官网,H100 HBM容量80GB,2025/26年发布的GB300和Rubin容量增长至288GB),叠加从FP16转向INT4/FP4的量化降低KV Cache显存占用,总有效容量提升约12~16倍,这仍远低于显存需求增幅。显存需求的指数级膨胀与HBM容量、成本间的矛盾使得显存优化为必然,也为Agent AI进一步爆发提供保证。
目前大模型厂商、硬件厂商主要通过量化、分层存储、模型架构优化的方式解决存力瓶颈
1)量化(Quantization):是目前最直接、最广泛采用的内存压缩手段,谷歌TurboQuant就是其中之一。在此之前,DeepSeekV3是首个真正大规模采用FP8混合精度训练的开源大模型,相比此前常用的BF16精度显著节省内存占用。
2)分层存储:例如英伟达在Rubin平台中引入推理上下文记忆存储(ICMS)平台,据英伟达官网,该平台构建了一个上下文记忆层(通过以太网连接的闪存层级,专门针对KV Cache进行优化),通过保持延迟敏感、可复用的推理上下文并对其进行预加载来提高GPU利用率,从而增强现有的网络对象和文件存储,使吞吐量(TPS)提高了5倍,并且比传统存储的能效提高了5倍。
3)模型架构优化:GQA/MQA(Grouped/Multi-Query Attention)已经是Llama、Mistral等主流模型标配,KV Heads远少于Query Heads,显著降低KV Cache占用。MLA(Multi-Head Latent Attention)是DeepSeek在DeepSeek-V2中首次提出的新型注意力机制,也是专门为了解决KV cache内存瓶颈而设计的架构级创新。
显存优化为持续趋势,看好Agent AI时代存力爆发需求
根据“杰文斯悖论”,算法效率的提升会大幅降低单Token生成成本,进而刺激用户开启更高并发与更长上下文,最终导致总存力需求不减反增。英伟达GTC 2026大会上着重提出了“Token工厂经济学”,其核心意义在于强化了存储在AI基础设施中的战略地位——带宽与容量等存力指标已成为系统升级的核心,类似TurboQuant降低单token生成成本,助力云厂商提升资本回报率,支撑AI Capex持续投资,同时这也意味着存储产业的盈利天花板将被长期打开。
风险因素
全球宏观经济低迷风险;下游需求不及预期;创新不及预期;国际产业环境变化和贸易摩擦加剧风险;算力升级进度不及预期;云厂商资本开支不及预期等。
免责声明:本页所载内容来旨在分享更多信息,不代表九方智投观点,不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。
推荐阅读
相关股票
相关板块
相关资讯
扫码下载
九方智投app
扫码关注
九方智投公众号
头条热搜
涨幅排行榜
暂无评论
赶快抢个沙发吧