计算机行业动态点评：DEEPSEEK再开源关注AI应用变化

2 月24 日起DeepSeek 连续6 天开源，在之前放出的模型参数、技术报告基础上，再次发布了Infra 层的核心代码，涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等模块优化，旨在提高模型本身和硬件的效率，且国产GPU 适配进展顺利。据DeepSeek 数据，若将Web、APP 和API的所有用户请求均以R1 定价计费，则每日总收入将为562,027 美元，成本利润率为545%。若考虑V3 定价、夜间打折等因素，付费token 占比50%情况下我们测算成本利润率有望达到108%，优化效果明显。我们认为，模型层的持续优化，有望持续降低应用层成本、提高应用表现。建议关注2B和2C 应用中拥有用户、数据和场景优势的公司。

DeepSeek 在原先开源的基础上，再次开源Infra 核心代码此前DeepSeek 在核心的V3/R1 模型上，已经开源了模型权重，使得全球用户均可自行下载、部署和推理，并且配备了较为详细的技术报告，帮助有技术积累的团队实现技术复现。DeepSeek 本次开源直接公布了V3/R1 模型Infra 层面的核心优化代码，涉及MLA、通信-计算、矩阵乘法运算、专家负载、文件存取等优化，相当于为技术报告中的算法分析直接提供了代码实现，进一步降低了技术复现的难度，并且许多优化方法可以被借鉴到其他模型的训练中。我们认为，全球模型的训练和推理效率有望迎来整体提升。

DeepSeek 代码首先基于CUDA 是效率考虑，而国产适配已见成效由于DeepSeek 在早期模型训练中使用Nvidia 系列显卡，因此上周开源的核心代码也几乎是在CUDA 环境中进行优化的。例如，DeepSeek 针对FlsahMLA、DeepEP、DeepGEMM 等算法给出的推荐配置，为NvidiaHopper GPU 和CUDA 12.3 及以上版本。我们认为，DeepSeek 的优势在于对软硬件全局的理解，能够结合自身模型训练的需求，更好的调配CUDA算子。这种理解能力是可以迁移到国产芯片上的，例如FlashMLA 已经推出了适配摩尔线程、海光、天数GPU 的版本，且各国产GPU 厂商也在自行做相应的代码适配。随着国产GPU 生态的逐步完善，类似算法或均能够实现很好的迁移，甚至直接原生在国产GPU 环境下。

路径选择：海外大算力追寻边界突破，国内强优化追寻效率提升我们认为，目前国内外模型大厂，已经开始走分化的道路。1）海外仍然以大算力探求边界提升：近期以xAI 和OpenAI 为典型代表，xAI 将GPU 集群从10 万卡扩展到20 万卡，训练出Grok-3，性能超过了o3-mini，部分指标相比R1 有约20%性能提升。OpenAI 则发布了旗下参数最大的预训练模型GPT-4.5，与DeepSeek-V3 在公开的测评结果上性能接近。2）国内在软硬件效率优化上更加领先：以DeepSeek 开源周为例，释放了核心的软硬件优化代码，使得理论上的成本利润率达到545%，并且优化方法能够复用。我们认为，后续DeepSeek 的迭代重点或将仍在软硬件和算法优化上。

产业链相关标的梳理

DeepSeek 持续带来新版模型和开源代码，使得模型成本和效率的规模性优化显著。我们认为，未来模型能力可能会成为“水电”等基础资源一类的存在，对于利用“水电”的应用公司优势显著。推荐有用户、数据、场景优势的公司，包括金山办公、同花顺、用友网络。其他产业链相关标的包括：1）2C 应用：三六零、合合信息；2）2B 应用：汉得信息、新致软件、能科科技；3）数据中台：星环科技、普元信息。

风险提示：宏观经济波动，技术进步不及预期。

行情