科技行业：DEEPSEEK：EP降本关注应用与算力

2025 年3 月1 日，DeepSeek 发布《One More Thing, DeepSeek-V3/R1Inference System Overview》，其中提到通过大模型跨节点专家并行，DeepSeek 实现了$87,072/天的低成本推理，有效算力得到显著提升。我们认为，随着国产算力硬件逐步适配DeepEP 体系，DeepSeek 模型或通过性价比优势带动推理需求释放，国产算力有望加速成长。

核心亮点：推理成本大幅降低，理想状态下15%付费率即可盈亏平衡据DeepSeek，V3 和R1 推理服务占用节点总和，峰值占用为278 个节点，平均占用226.75 个节点，DeepSeek 假定GPU 租赁成本为2 美金/小时，总成本为$87,072/天。此外，在2025/02/27 12:00 PM 至2025/02/28 12:00PM，V3 和R1 模型推理消耗Token 776B（输入608B+输出168B），平均每百万Token 处理成本为0.11 美元。DeepSeek 假设如果所有Tokens 全部按照DeepSeekR1 的定价计算，理论上一天的总收入为$562,027，成本利润率545%。但考虑到目前DeepSeek 仅通过API 收费，故我们测算若按照R1 收费定价，付费Token 占总Token 的15%即可实现推理过程的盈亏平衡。

核心技术：通过EP 实现更高的吞吐量和更低的延迟DeepSeek-V3 / R1 推理系统的优化目标是：更大的吞吐，更低的延迟。为了实现这两个目标，DeepSeek 的方案是使用大规模跨节点专家并行（ExpertParallelism/EP），并开源了DeepEP 代码。具体来看，核心能力包括：1）大规模跨节点专家并行：采用了预填充-解码分解架构，不同阶段同时进行多个专家并行计算；2）计算/通信重叠：将GPU 中的SM（流多处理器）划分为计算、通信两部分，各自同时执行相应工作负载，减少延迟等待时间；3）负载平衡：通过预填充负载平衡、解码负载平衡、专家并行负载平衡，尽可能地为每个 GPU 分配均衡的计算负载、通信负载。

核心原因：推理定价/成本的差异或为外部算力供应受限的结果对比来看，海外模型如OpenAI o3-mini 在推理定价方面较DeepSeek 更贵，如每百万Token 输入的价格为$0.55（缓存命中），而R1 为$0.14。我们认为，API 定价的差异或有相当一部分来自于推理成本的差异，DeepSeek 或凭借EP 等更极致的软硬件优化，实现推理成本的节省。我们认为，这一现象的背后，反映的是国内外算力供应以及产业方向的差异。国内大模型厂商在算力供给受限的背景下，通过技术优化的方式不断压榨硬件性能，在有限的算力下实现最优的模型效果。基于此，我们认为，国内模型有望凭借性价比优势，带动下游商业化应用，实现全球市场的份额提升。

核心受益：DeepEP 开源有望释放推理需求，关注应用与算力我们认为，DeepSeek 通过优化推理成本，有望推动LLM 商业化应用加速。

基于此，我们看好推理需求释放带动IaaS 服务商稼动率提升，云厂商有望受益。其次，考虑到R1 带来模型能力提升的同时又可实现低成本部署，有望带动AI 应用加速渗透。最后，尽管目前DeepEP 仍需要在Hopper+CUDA+NVLink 的框架下实现，但中长期来看，随着国产卡的适配跟进，技术有望向更多国产生态迁移，国产AI 算力板块有望迎来成长机遇。

推荐算力产业公司：浪潮信息，其他相关公司包括：寒武纪、海光信息、金山云、优刻得、华勤技术、深桑达A、太极股份、深信服、宝信软件。

风险提示：AI 技术迭代不及预期；AI 商业化不及预期；本报告基于客观信息整理，不构成投资建议。

行情