行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

国产原生RDMA网络scaleFabric发布 填补大规模智算互联空白

证券时报网 03-13 11:52

3月12日,中科曙光宣布实现国产高端原生RDMA(远程直接内存访问)技术重大突破,正式发布首款全栈自研400G无损高速网络scaleFabric。该产品基于原生RDMA架构,从底层的112G SerDes IP(芯片设计中用于实现?高速串行数据传输?的核心硬件模块)、硬件设备到上层的管理软件实现100%自主研发,填补了国内数据中心高速网络领域的空白,以比肩国际顶尖同类产品的性能表现,为超大规模智算集群铺就了一条高带宽、低时延、真无损、超可靠的“算力大动脉”。据发布会披露,该产品已实现量产现货供应,具备全场景即插即用的落地能力。

高端智算互联待破局

随着AI大模型训练与高通量推理计算需求持续扩大,万卡级乃至更大规模的算力集群正成为主流形态。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30—50%,网络性能直接影响算力系统的整体效率。

在大规模智算集群领域,RDMA网络已成为算力中心的基本需求,凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率。其中,InfiniBand(无限带宽技术,简称IB)凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统采用InfiniBand网络架构。

长期以来,从高速SerDesIP、核心芯片到IB网卡、IB交换机等设备,InfiniBand相关产业链基本被海外厂商垄断。随着AI算力需求快速增长及数据中心网络持续演进,自主高性能RDMA网络正成为产业关注焦点。

中科曙光高级副总裁李斌在发布会上直言,“计算决定了计算系统性能的上限,但是如果是网络系统拉垮的话,有可能会把整个性能下限归零了”。中国工程院院士邬贺铨表示,高速网络作为算力基础设施的关键核心技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。

国产原生RDMA问世

scaleFabric是国内首款原生无损RDMA高速网络,面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。

此次发布的scaleFabric400系列网络产品技术规格全面对标英伟达NDR,部分指标实现赶超。性能方面,scaleFabric400网卡基于PCIe5.0接口,端口带宽达400Gbps,端到端通信时延低至0.9微秒;scaleFabric400交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒,支持800G×40或400G×80端口扩展。这一性能组合,可充分满足万卡级AI训练集群对高带宽、低时延网络的极致需求。

稳定性与扩展能力上,产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于1毫秒,已支撑近万卡集群持续稳定运行验证超10个月。与英伟达NDR相比,交换机端口密度提升25%,网卡最大QP数支持提升100%,单子网互连规模是传统IB的2.33倍,可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30%。

同时,产品完成了与IB生态的全面兼容,中科曙光高速网络互联产品部总工程师万伟介绍,各类HPC(高性能计算)和AI大模型训练应用无需修改代码即可直接迁移,运维管理习惯也可无缝衔接,大幅降低了用户的迁移门槛。

在大规模AI训练系统中,网络互联能力已成为影响算力利用率的关键变量。scaleFabric的发布,标志着国产智算网络在高端RDMA领域实现重大突破。

万卡集群率先验证

在实际应用层面,scaleFabric目前已部署于国家超算互联网郑州核心节点,支撑三套万卡级scaleX智算集群上线运行,总规模达3万卡。万伟介绍,该网络系统仅用36小时便完成三套万卡级集群的网络部署上线,目前累计服务1万个客户、支撑超10项万作业稳定运行。李斌表示,随着产品在超大规模智算集群中的落地应用,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。

针对超大规模集群的运维挑战,中科曙光高端计算总工程师解西国介绍,scaleFabric配套了覆盖网络配置、上线筛查、监控管理、故障处理全流程的运维能力,六大核心能力实现了从被动响应到主动感知、从手动管理到智能运维的升级,为十万卡级集群的稳定运行提供了全链路保障。

目前,scaleFabric已完成多领域的落地验证与实测优化。中科院计算技术研究所研究员王展团队实测显示,scaleFabric的单QP(通信队列)通信性能、交换机转发延迟均达到很高水平,可支撑科学智能领域的高精度模拟需求;科大讯飞也正与中科曙光深化合作,推动scaleFabric在讯飞星火大模型训练与推理场景的适配落地,助力国产智算生态完善。

依托在高性能计算、存储与网络领域的长期技术积累,中科曙光已逐步形成“算—存—网”协同发展的完整算力底座能力,为大规模AI基础设施提供系统级支撑。随着政府工作报告提出持续推进“人工智能+”,算力基础设施正进入新一轮升级周期。国产原生RDMA网络的落地,意味着我国在智算互联这一关键环节开始形成自主技术路径,补齐了我国智算基础设施中的关键一环。

技术突破之外,国产高速网络的生态共建也同步启动。发布会同期,光合组织高性能计算专委会AIDC高速网络工作组正式成立,联合了科大讯飞、联想开天、中兴通讯等数十家产业链上下游企业,将共同推动国产高速网络的技术标准、生态适配与产业落地。李斌表示,曙光将秉持极致开放的态度,与产业链上下游伙伴在标准、接口、协议、商业模式等方面开展全方位合作,共同把国产高速网络的生态做实。

免责声明:用户发布的内容仅代表其个人观点,与九方智投无关,不作为投资建议,据此操作风险自担。请勿相信任何免费荐股、代客理财等内容,请勿添加发布内容用户的任何联系方式,谨防上当受骗。

举报

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈