广发证券:AI记忆上游基础设施价值量、重要性提升
广发证券发布研报称,AI的Memory时刻,AI记忆成为支撑上下文连续性、个性化与历史信息复用的底层能力,持续扩展模型能力边界,有望促进AI Agent等应用加速落地。AI记忆的价值正从“费用项”转变为“资产项”,相关上游基础设施价值量、重要性将不断提升。建议关注产业链核心受益标的。
广发证券主要观点如下:
英伟达推出AI推理上下文存储平台ICMS
随用户多轮会话与Agent持续运行带来的KVCache不断累积,系统对可长期留存并按需回填的分层KVCache形成刚性需求,推动上下文从HBM外溢至DRAM、SSD等分层介质承接。为此,NVIDIA推出上下文记忆存储架构ICMS,面向Agent与多轮推理场景提供“长期上下文记忆层”,一方面承载更大规模KVCache,另一方面以低延迟将历史KVCache回填到多GPU节点的多回合推理会话;其KV访问模式呈现低TTFT约束下的高并发、高吞吐随机读取。
ICMS平台对SSD使用效果好
经济性与扩展性方面,SSD单位成本显著低于GPU内存,且可按TB、PB容量扩展,是长期上下文的天然承载介质。可行性方面,根据《Context Memory Storage Systems, Disruption ofAgentic AITokenomics, and Memory Pooling Flash vs DRAM》,ICMS引入PB级存储层后,其访问延迟仅较池化DRAM略高。实证方面,WEKA对其增强型内存网格(AMG)进行性能评估,AMG是一种与NVIDIA的ICMS兼容的上下文存储解决方案。测试在decode阶段模拟用户池持续扩张:(1)当初期用户池较小,KVCache基本驻留在GPUHBM,三种方案(HBM+WEKAAMG、HBM+DRAM、HBM+DRAM+POSIX文件系统)的token吞吐均能维持在高位。(2)随着用户数持续增长,KVCache会外溢到更低层级的内存/存储,token吞吐开始下滑;但WEKAAMG凭借更高容量、以及更强的网络与并发随机访问能力,能够更快完成上下文预取与回填,降低冷启动与阻塞,从而在大用户池阶段保持更高且更稳定的token吞吐,相较HBM+DRAM与HBM+DRAM+POSIX方案,其吞吐提升最高可达4倍,验证ICMS可有效承接长期上下文并维持吞吐稳定性。
ICMS平台打开存储市场空间
参考vastdata,该行对上下文存储空间大小进行测算。(1)单个token所需存储空间:假设有10万个同时在线用户或Agent使用Llama 3.1405B,则单个token的存储空间为504KB/token;(2)用户上下文窗口所需存储空间:若每个上下文窗口为64000 tokens,则对应存储约为30GB。(3)留存倍数:为获得更好的用户体验,假设留存倍数为15×。在上述假设下,10万用户的总存储需求约为45PB,即若要在具备强对话历史能力的大上下文模型上稳定支持10万用户/Agent,所需上下文存储规模可达PB级。
风险提示
AI产业发展以及需求不及预期;AI服务器出货量不及预期,国产厂商技术和产品进展不及预期。
免责声明:本页所载内容来旨在分享更多信息,不代表九方智投观点,不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。
推荐阅读
相关股票
相关板块
相关资讯
扫码下载
九方智投app
扫码关注
九方智投公众号
头条热搜
涨幅排行榜
暂无评论
赶快抢个沙发吧