行情中心 沪深京A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

国盛证券:网络成为 AI 时代的全新"C 位" 降本开放和算力规模三项平衡引领创新

智通财经 2024-05-17 10:41

新硬件 --%

智通财经APP获悉,国盛证券发布研报点评AI 时代的网络需求与创新方向。该团队认为大模型时代,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这构成了 AI 时代网络“上位”的基础;现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。

网络需求从何而来?

进入大模型时代,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了 AI 时代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更多的用于同步显卡间的模型参数,对于网络的密度,容量都提出了更高要求。

日益庞大的模型体积:(1)训练耗时=训练数据规模 x 模型参数量/计算速率(2)计算速率=单设备计算速率 x 设备数 x 多设备并行效率。当下,业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能缩短训练耗时,而单设备计算速率的更新有其周期和限制,因此如何利用网络尽可能的扩大“设备数”和“并行效率”直接决定了算力。

多卡同步的复杂沟通:在大模型训练过程中,将模型切分至单卡后,每经过一次计算,单卡之间都需要进行对齐(Reduce、Gather 等),同时,在英伟达的通信原语体系 NCCL 中,All-to-All(即所有节点都可以互相获取值并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。

愈发昂贵的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中断,需要回到几小时或者几天前的断点进行重新训练。而整个网络中某一个软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代表着落后的进度和愈发高昂的成本。现代的 AI 网络,已经渐渐发展成堪比飞机、航母等的人类系统工程能力的结晶。

网络创新将走向何方?

硬件随需求而动,经过两年,全球算力投资规模已经膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。

通信介质的更迭:光、铜与硅是人类传输的三大介质,在 AI 时代,光模块追求更高速率的同时,也迈出了 LPO、LRO、硅光等降本之路。在当前时间点,铜缆凭借性价比,故障率等因素占领了机柜内连接。而 Chiplet,Wafer-scaling 等新半导体技术,则正在加速探索硅基互联的上限。

网络协议的竞争:片间通信协议与显卡强绑定,如英伟达的 NV-LINK,AMD的 Infinity Fabric 等等,其决定了单台服务器或者单个算力节点的能力上限,是非常残酷的巨头战场。而 IB 与以太网的斗争则是节点间通信的主旋律。

网络架构的变化:当下节点间网络架构普遍采用叶脊架构,叶脊具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊稍显冗余的架构会给超大集群带来较大的网络成本。当下,如 Dragonfly 架构,rail-only 架构等新架构有望成为面向下一代超大集群的演进方向。

投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、工业富联、英维克、沪电股份。通信系统创新环节:长飞光纤、太辰光、源杰科技、盛科通信-U、寒武纪、德科立。

免责声明

以上内容仅供您参考和学习使用,任何投资建议均不作为您的投资依据;您需自主做出决策,自行承担风险和损失。九方智投提醒您,市场有风险,投资需谨慎。

推荐阅读

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈