消息面上,谷歌发布的新型AI内存压缩技术TurboQuant,引发市场对存储需求前景的担忧。据称,该技术可在不损失准确性的前提下,将大语言模型的缓存内存占用至少减少6倍,并实现最高8倍的加速,旨在解决AI推理与向量搜索中的内存瓶颈问题。
不过摩根士丹利指出该技术仅作用于推理阶段的键值缓存,不影响模型权重所占用的高带宽内存(HBM),也与训练任务无关。因此,这并非存储总需求或硬件总量减少6倍,而是通过效率提升增加单GPU吞吐量——相同硬件可支持4至8倍更长的上下文,或在不触发内存溢出的前提下显著提升批处理规模。摩根士丹利还提示,由于该压缩技术可直接集成进平台基础设施,对软件层面可能形成边际利空。



