计算机行业：如何理解AI算力的指标参数和不同精度适用的场景

核心观点：

在AI 计算中，基于计算资源优化分配的原理，不同场景下使用的数据类型是不同的。AI 芯片的主要应用场景包括训练、推理与高性能计算，三者由于对计算速度、结果准确度的需求各有不同，因此通常用于各应用场景的数据类型也有所不同。（1）AI 训练：在训练过程中，神经网络通过海量数据集的学习，需要高密度、高频率、高吞吐的搭建输入数据与输出结果之间的关系。由于构建模型的数据计算量庞大，在FP32精度下训练这些大型模型可能需要数周甚至数月时间。因此，若使用较低精度（如FP8、TF32 和FP16）的AI 计算，可有效减少训练时长，提升训练效率。（2）AI 推理：在推理场景中，AI 计算的速度不是衡量性能的唯一指标，能够加速不同神经网络的通用性，以及能够使开发者构建神经网络的可编程性也是影响推理性能的重要因素。使用TF32、BF16、FP16、FP8 和INT8 等数据类型，可以实现低延迟、高吞吐推理功能的同时确保通用性。（3）高性能计算：其主要应用于材料科学、气象仿真、生物医药等和科学研究领域较为相关的领域，其对于输出结果的精度要求较高，因此大量科研领域依赖双精度FP64 计算。

支持FP64 数据类型的计算是英伟达AI 芯片的重要特点。通过对比英伟达和寒武纪历代芯片架构支持的数据类型，我们发现英伟达AI 芯片对于FP64 数据类型计算的支持是其重要特点。这一特点导致英伟达的AI 芯片在应用于对于计算精度要求较高的科学研究领域具有较强优势。但是FP64 在大部分人工智能商业化落地的场景中应用空间有限，因此，我们判断，在商业环境的应用中，支持FP64 这一特性并不会使得英伟达拉开和其竞品明显差距。

英伟达的AI 芯片引入Tensor Core，优化矩阵计算的能力提升算力水平。英伟达在2017 年推出Volta 架构AI 芯片产品的时候首次引入了Tensor Core，其将单一维度的数字运算扩展到二维度的矩阵运算，从而提升单次运算能力。Tensor Core 的引入可以使得H100、和A100对于FP64 数据类型的算力提升2 倍。因此，国产AI 芯片在追赶英伟达产品的过程中，矩阵运算能力的优化升级是AI 算力提升的关键。

投资建议：建议关注稀缺自主AI 算力平台寒武纪与拥有完整ICT 产品布局的紫光股份。建议关注海光信息（和电子组联合覆盖）、浪潮信息。

风险提示。矩阵运算性能提升难度较大，国产AI 基础算力的差距缩小仍需要时间；国产AI 芯片存在供应链不稳定的风险；美方出口管制政策变化的不确定性。

行情