行情中心 沪深A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

科技行业:DEEPSEEK:EP降本 关注应用与算力

华泰证券股份有限公司 03-03 00:00

2025 年3 月1 日,DeepSeek 发布《One More Thing, DeepSeek-V3/R1Inference System Overview》,其中提到通过大模型跨节点专家并行,DeepSeek 实现了$87,072/天的低成本推理,有效算力得到显著提升。我们认为,随着国产算力硬件逐步适配DeepEP 体系,DeepSeek 模型或通过性价比优势带动推理需求释放,国产算力有望加速成长。

核心亮点:推理成本大幅降低,理想状态下15%付费率即可盈亏平衡据DeepSeek,V3 和R1 推理服务占用节点总和,峰值占用为278 个节点,平均占用226.75 个节点,DeepSeek 假定GPU 租赁成本为2 美金/小时,总成本为$87,072/天。此外,在2025/02/27 12:00 PM 至2025/02/28 12:00PM,V3 和R1 模型推理消耗Token 776B(输入608B+输出168B),平均每百万Token 处理成本为0.11 美元。DeepSeek 假设如果所有Tokens 全部按照DeepSeekR1 的定价计算,理论上一天的总收入为$562,027,成本利润率545%。但考虑到目前DeepSeek 仅通过API 收费,故我们测算若按照R1 收费定价,付费Token 占总Token 的15%即可实现推理过程的盈亏平衡。

核心技术:通过EP 实现更高的吞吐量和更低的延迟DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。为了实现这两个目标,DeepSeek 的方案是使用大规模跨节点专家并行(ExpertParallelism/EP),并开源了DeepEP 代码。具体来看,核心能力包括:1)大规模跨节点专家并行:采用了预填充-解码分解架构,不同阶段同时进行多个专家并行计算;2)计算/通信重叠:将GPU 中的SM(流多处理器)划分为计算、通信两部分,各自同时执行相应工作负载,减少延迟等待时间;3)负载平衡:通过预填充负载平衡、解码负载平衡、专家并行负载平衡,尽可能地为每个 GPU 分配均衡的计算负载、通信负载。

核心原因:推理定价/成本的差异或为外部算力供应受限的结果对比来看,海外模型如OpenAI o3-mini 在推理定价方面较DeepSeek 更贵,如每百万Token 输入的价格为$0.55(缓存命中),而R1 为$0.14。我们认为,API 定价的差异或有相当一部分来自于推理成本的差异,DeepSeek 或凭借EP 等更极致的软硬件优化,实现推理成本的节省。我们认为,这一现象的背后,反映的是国内外算力供应以及产业方向的差异。国内大模型厂商在算力供给受限的背景下,通过技术优化的方式不断压榨硬件性能,在有限的算力下实现最优的模型效果。基于此,我们认为,国内模型有望凭借性价比优势,带动下游商业化应用,实现全球市场的份额提升。

核心受益:DeepEP 开源有望释放推理需求,关注应用与算力我们认为,DeepSeek 通过优化推理成本,有望推动LLM 商业化应用加速。

基于此,我们看好推理需求释放带动IaaS 服务商稼动率提升,云厂商有望受益。其次,考虑到R1 带来模型能力提升的同时又可实现低成本部署,有望带动AI 应用加速渗透。最后, 尽管目前DeepEP 仍需要在Hopper+CUDA+NVLink 的框架下实现,但中长期来看,随着国产卡的适配跟进,技术有望向更多国产生态迁移,国产AI 算力板块有望迎来成长机遇。

推荐算力产业公司:浪潮信息,其他相关公司包括:寒武纪、海光信息、金山云、优刻得、华勤技术、深桑达A、太极股份、深信服、宝信软件。

风险提示:AI 技术迭代不及预期;AI 商业化不及预期;本报告基于客观信息整理,不构成投资建议。

免责声明:以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈