ChatGPT两天五次宕机!点燃AI算力革命

ChatGPT用户数快速增长,需求量火爆算力瓶颈引发屡次宕机。AI进入了新的算力霸权时代,算力需求暴增推动AI产业链基础设备需求与通信CPO解决方案。
投资机会:

一、ChatGPT用户数快速增长,需求量火爆算力瓶颈引发屡次宕机
ChatGPT用户数快速增长,需求量火爆引发宕机。ChatGPT自发布以来用户数量快速增长。在庞大用户群涌入的情况下,ChatGPT服务器2天宕机5次,火爆程度引人注目的同时也催生了对算力基础设施建设更高的要求。
ChalGPT在2023年1月末的月活用户突破1亿,成为史上用户增长速度最快的消费级应用程序。

根据Similarweb数据,网站chat.openai.com在最近3个月以来用户数量快速增长。2023年1月,网站访问量达到61600万人次,相比2022年12月访问量26600万人次增长131.6%,相比2022年1月访问量15.27万人次增长174018%。

ChatGPT用户数快速增长,需求量火爆引发宕机。ChatGPT迭代后参数指数级增加1000倍以上,平均回复成本是谷歌搜索6-28倍。经历3次迭代,参数量从1.17亿增加到1750亿,训练量指数级大幅提升。ChatGPT一次回复成本大约是谷歌搜索查询平均成本的6倍-28倍。

二、AI进入了新的算力霸权时代,算力需求暴增推动AI基础设备需求
AIGC热潮驱动下,全球科技龙头的军备竞赛已经打响。据彭博社消息,谷歌于今年2月4日宣布,其与OpenAI竞争对手、AI初创公司Anthropic建立新的合作伙伴关系,目前谷歌已经向Anthropic投资了近4亿美元。谷歌也于2月7日发布了基于谷歌LaMDA大模型的AI对话系统Bard。
同天百度也宣布了正在研发的文心一言(ERNIEBot)项目,将于3月份完成内测,面向公众开放。我们看到在ChatGPT产生的鲶鱼效应驱动下,各大科技巨头正在进行新的一轮科技军备竞赛,未来AI领域投资料将大幅增长,AI产业化进程有望全面提速。

ChatGPT每一代GPT模型的参数量都快速增长与之相对应的训练数据量指数型增长,所需算力也指数型增长。据OpenAI团队发表于2020年的论文,训练一次1746亿参数的GPT-3模型需要的算力约为假如每秒计算一千万亿次,也需要计算3640天。
据微软官网,微软Azure为OpenAI开发的超级计算机是一个单一系统,具有超过28.5万个CPU核心、1万个GPU和400GB/s的GPU服务器网络传输带宽。据英伟达,使用单个Tesla架构的V100GPU对1746亿参数的GPT-3模型进行一次训练,需要用288年时间。此外,算力资源的大量消耗,必然伴随着算力成本的上升,据Lambda,使用训练一次1746亿参数的GPT-3模型所需花费的算力成本超过460万美元。

GPT-3训练单次的成本就高达500万美元左右。每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。ChatGPT单月运营对应成本约616万美元。如果使用总投资30.2亿、算力500P的数据中心来支撑ChatGPT的运行,至少需要7-8个这样的数据中心,基础设施的投入都是以百亿级的。

AI进入了新的算力霸权时代,几千倍到几万倍的超高算力才能训练出世界上最好的算法。据OpenAI测算,自2012年以来,全球头部AI模型训练算力需求3-4个月翻一番,每年头部训练模型所需算力增长幅度高达10倍。而摩尔定律认为,芯片计算性能大约每18-24个月翻一番。
AI算力需求,性能不足,数量来凑。AI算力需求指数型增长,芯片性能进步远远无法满足。数据显示,从2012年到2018年,训练AI所耗费的算力增长了30万倍,而摩尔定律在相同时间只有7倍的增长。因此,AI训练模型算力需求增长与芯片计算性能增长之间的不匹配,或将带来对算力基础设施供给需求的快速增长。
当前处在以ChatGPT为主线的新一轮人工智能创新周期,ChatGPT为人工智能产业注入新活力,有望带动AIGC类应用快速爆发,人工智能技术作为驱动数据经济的技术底层,有望迎来新的发展机遇。AI架构主要包括三层架构,ChatGPT算力主要由微软提供的超级计算机满足。AI产业主要包括基础层,技术层,应用层三层架构,技术层面,OpenAI使用的大模型训练成为未来发展趋势。而人工智能技术创新浪潮将催生大量的AI相关基础设施的需求。
《新型数据中心发展三年行动计划(2021-2023年)》强调到2021年底,全国数据中心平均利用率力争提升到55%以上,总算力超过120EFLOPS,新建大型及以上数据中心PUE降低到1.35以下;到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上,总算力超过200EFLOPS,高性能算力占比达到10%。
国家枢纽节点算力规模占比超过70%。此外,计划还提出新型数据中心应具备高技术、高算力、高能效、高安全等特征。“四高”已经成为未来数据中心的必备条件,而相应的服务器、AI芯片以高速光通讯带来较快增长。
传统CPU服务器通用性较强,专用性较弱数据的质和量发生变化,非结构化数据占比激增算力无法满足AI服务器需求,未来需要AI专用的服务器与AI服务器芯片。

三、算力需求暴增推动AI产业链
算力需求爆发拉动芯片量价齐升

人工智能四层架构,AI芯片为底层支撑。ChatGPT带来的数量级算力需求,核心变化在于通过真实的调用数据以及人类反馈的强化学习进行训练。中国企业落后1-2年:OpenAI第一梯队,Google第二梯队,百度第三梯队。从数据、算力、模型的维度上,主要是差在模型环节,包括清洗、标注、模型结构设计、训练推理的技术积累。

提供算力的四种AI芯片GPU、CPU、FPGA、ASIC,提供存储功能的芯片HBM和DRAM,会受益于ChatGPT的应用爆发,推动AI产业化由软件向硬件切换,半导体+AI生态会逐渐清晰,AI芯片产品将实现大规模落地。

AI芯片专门用于处理人工智能应用中的大量计算任务的模块,包括GPU(图形处理器)、FPGA(现场可编程逻辑门阵列)、ASIC(专用集成电路)和DPU(处理器分散处理单元)等。ChatGPT的高算力需求对这些板块将产生实质性影响。此外,高算力芯片和高速内存相辅相成,内存接口芯片也有可能受到影响。AI算力需求不断升级,将对GPU、CPU、FPGA、AISoC等芯片的量与质提出更高要求。
CPU擅长逻辑控制,可用于推理/预测,优势有大量的缓存和复杂的逻辑控制单元,擅长逻辑控制、串行的运算。劣势计算量较小,且不擅长复杂算法运算和处理并行重复的操作。服务器CPU向多核心发展,满足处理能力和速度提升需要。
GPU高度适配AI模型构建。
FPGA:可通过深度学习+分布集群数据传输赋能大模型。可编程灵活性高:半定制电路,理论上可以实现任意ASIC和DSP的逻辑功能。开发周期短:可通过设计软件处理布线、布局及时序等问题。现场可重编功能:可以远程通过软件实现自定义硬件功能。低延时:逻辑门通过硬件线连接,不需要时钟信号。方便并行计算:集成了大量基本门电路,一次可执行多个指令算法。
ASIC可进一步优化性能与功耗,全球巨头纷纷布局。随着机器学习、边缘计算、自动驾驶的发展,大量数据处理任务的产生,对于芯片计算效率、计算能力和计能耗比的要求也越来越高,ASIC通过与CPU结合的方式被广泛关注,国内外龙头厂商纷纷布局迎战AI时代的到来。

四、容易被忽略的算力瓶颈:CPO解决数据传输速率问题
数据传输速率:容易被忽略的算力瓶颈。作为云厂商IT基础设施的必要通信设备,光模块、光芯片、光器件长期有望显著受益。目前ChatGPT的成本高企,算力成本与功耗过高是AI产业化落地的主要阻碍之一,所以低功耗低成本的算力解决方案是未来数据中心硬件设备的重要发展方向。

光模块、光芯片、光器件、交换机作为目前数据中心中必不可少的通信元器件,其速率的升级可以显著降低单比特的成本与功耗。据测算,数据中心中光模块从100G升级到800G,其单位速率的功耗将从35mW/(GBit/s)降低到20mW/(GBit/s)。

光模块封装工艺演进:CPO有望成为主流。CPO方案通过减少PCB布线长度的方式,可以显著降低高速信号的功耗。目前博通等厂商也已经推出相关CPO交换机产品,在全球科技巨头加大AI投入的背景下,相关方案有望加速渗透。AI产业化有望加速数据中心中光模块等需求增长与技术升级,相关产业将望长期显著受益。

在最新的OCP峰会上,英伟达代表表示AI所需的网络连接带宽将增加32倍,当前光模块速率已无法满足这一带宽提升需求。继续使用光模块会带来成本翻倍和20-25%的额外功耗。为此需要新的激光器和调制器设计,并且CPO方案可能将功耗降低50%。预计CPO端口数量将从2023年的5万逐步增长到2027年的450万个。

CPO,英文全称Co-packagedoptics,共封装光学。CPO是将网络交换芯片和光引擎(光模块)进行“封装”的技术。传统的连接方式,叫做Pluggable(可插拔)。光引擎是可插拔的光模块。光纤过来以后,插在光模块上,然后通过SerDes通道,送到网络交换芯片(AISC)。

CPO将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。CPO是终极形态缩短了交换芯片和光引擎间的距离(控制在5~7cm),使得高速电信号能够高质量的在两者之间传输,满足系统的误码率(BER)要求。集成后,还可以实现更高密度的高速端口,提升整机的带宽密度。此外,集成使得元件更加集中,也有利于引入冷板液冷。

CPO技术的背后,其实就是现在非常热门的硅光技术。硅光,是以光子和电子为信息载体的硅基光电子大规模集成技术。简单来说,就是把多种光器件集成在一个硅基衬底上,变成集成“光”路。它是一种微型光学系统。硅光之所以这么火,根本原因在于微电子技术已经逐渐接近性能极限,传统的“电芯片”在带宽、功耗、时延方面,越来越力不从心,所以,就改走了“(硅)光芯片”这个新赛道。
CPO的低功耗或成为AI高算力下高能效比方案。
功耗:通过设备(交换机等)和光模块等耦合在背板PCB上,通过液冷板降温,降低功耗。
体积/传输质量:满足超高算力后光模块数量过载等问题。同时将光引擎移至交换芯片附近,降低传输距离,提高高速电信号传输质量。
成本:耦合之后未来伴随规模上量,成本或有一定经济性。
高算力场景下,交换机/光模块等设备和器件,基于功耗和成本等考虑,可能会发生结构性的变化。通过新技术、CPO(光电共封装)、硅光、耦合、液冷散热等共同达到高算力但非高功耗的目标。
共封装光学CPO成为趋势,传统可插拔光模块形态向光引擎形态演进。随着电口速率提升到112G,高速信号在PCB传输中的损耗随之增加,对PCB的设计难度、材料成本带来挑战,同时还需要在可插拔光模块和交换芯片之间的高速走线上增加更多的Retimer芯片,整机的运行功耗也将大幅提升。为了克服这些问题,CPO逐渐成为共识,也就是将光模块不断向交换芯片靠近,缩短芯片和模块之间的走线距离,并逐步替代可插拔光模块,最终将光引擎和电交换芯片封装成一个芯片。从行业趋势来看,51.2T交换芯片时代可能需要CPO,预计到2027年CPO会成为光通信行业内必不可少的技术。
多家厂商前瞻性布局CPO相关技术与产品,预计至2023-2025年得到实际应用。目前AWS、微软、Meta、谷歌等云计算巨头,思科、博通、Marvell、IBM、英特尔、英伟达、AMD、台积电、格芯、Ranovus等网络设备龙头及芯片龙头,均前瞻性地布局CPO相关技术及产品,并推进CPO标准化工作。
CPO的成熟与商业化有望引发光模块竞争格局变革。CPO主要涉及3类核心技术挑战——高密度的光电(驱动)芯片设计技术、高密度及高带宽的连接器技术、封装和散热技术。随着CPO技术的成熟与商业化,将促进产业整体升级及生态供应链的重组,为光模块竞争格局带来变数,先进技术前瞻布局与积淀的厂商有望获得先发优势。
五、东数西算推动算力降本,量子超算或是终极解决方案
约束AI的最大瓶颈是如何实现算力降本。算力的瓶颈其实并不体现在算力的绝对大小,而在于实现该算力的成本。
能源供给、散热结构、机柜形态等方面更适合使用了大量智能训练芯片的服务器等。
数据显示,我国算力产业规模快速增长,近五年平均增速超过30%,算力规模排名全球第二。国家“东数西算”工程通过构建全国一体化的新型算力网络,优化数据中心建设布局,将东部算力需求有序引导到西部,利用西部的资源优势,为数字中国的发展提供低碳、低成本的优质算力。AI产业来说,“东数西算”也可以成为“东数西训”,即庞大的训练算力需求完全可以转移到算力成本更低,同时规模更具优势的西部数据中心中进行。
相较于2020年我国135EFLOPS的算力总规模,2022年我国智能算力规模近乎翻倍,达到268EFLOPS,超过通用算力规模;预计未来5年我国智能算力规模的年复合增长率将达52.3%。
未来,我国还应在算力方面进一步加强超算中心、智算中心和边缘数据中心建设,不断满足政府、行业、企业甚至个人等多样化的智能场景需要,以算力赋能智慧城市、智慧医疗、智慧农业等千行百业的高质量发展。
不仅如此,大力加强自主可控高端芯片生产能力,争取在量子计算领域实现换道超车,加强算力人才培养,同样是保持我国AI算力领先的重要手段。
量子计算机原理:以量子位为存储单位,计算速度与存储量是传统计算机指数级。
量子计算:以量子比特为基本单元,利用量子叠加、纠缠和干涉等原理,进行高速的数学和逻辑运算、存储及处理量子信息。
量子计算机:遵循量子力学规律,基于上述原理进行信息处理的一类物理装置(工作原理流程图见右下)。
优势:具有经典计算无法比拟的巨大信息携带和超强并行处理能力,能够在特定计算困难问题上提供指数级加速,有望成为未来几乎所有科技领域加速发展的“新引擎”

量子计算跨越计算瓶颈,存储以及运算能力得到指数级的提升。在经典计算机中,用0和1二进制序列保存数据,01由不同的电压实现,0代表低电压信号,1代表高电压信号,每个电压信号只能表示一个数字,二进制序列由一个高低电压交错的脉冲实现,比如001对应于一个“低-低-高”电压的信号,N位二进制序列由于没有向量,某一时间只能保存一个值(比如四位序列1001=2^3+2^0=9),可以保存的数值种类为2的N次方个(比如四位二进制最多能表达0~15中的一个数值)。
量子计算机中,量子因为叠加态的存在,1个量子比特(qubit)能够同时存储0和1两个状态,所以N位的量子比特可以在某一时间存储2的N次方个向量,其能保存的数值种类是无限个,其存储信息的能力相比传统计算机有指数级的提升。量子计算机在一次运算中可以同时对2的N次方个输入数进行数学运算,其效果相当于经典计算机要重复实施2的N次方次数运算,可见量子计算对计算能力的提升也是指数级的。

量子计算目前仍处于试验阶段,商业化应用道路漫长。量子计算机的前沿研究主要有两个方向:分别为量子计算机的研发和适用于量子计算机的算法的研究。谷歌“快1亿倍”的量子退火算法充分利用了量子计算的特性,在面对1000个变量寻找最优化结果时,速度往普通计算机快了1亿倍。
然而谷歌使用的D-Wave2X量子计算机以及退火算法目前只能用于一些特定应用之中,离真正意义上的通用型量子计算机还比较遥远,D-Wave的量子计算机需要在接近绝对零度的工作环境中使用,而且量子计算机在现实之中相干性极难保持。从量子态的控制、量子编码再到量子存储,目前还存在很多技术难题,商业应用道路仍然漫长。

量子计算机通过量子门对量子进行操作。类似于经典计算中基本的与门(ANDGate)、或门(ORGate)、非门(NOTGate),量子计算中基本的量子门有阿达马门(HadamardGate)、受控非门(Controlled-NOTGate)等。

根据量子力学,量子系统在经过“测量”之后就会坍缩为经典状态。以“薛定谔的猫”为例,打开密闭容器后,猫就不再处于叠加状态,而是死猫或者活猫的唯一状态。
同样,量子计算机在经过量子算法运算后每一次测量都会得到唯一确定的结果,且每一次结果都有可能不相同。根据基础的量子门,科学家可以开发出相应的量子算法。

虽然量子计算机每一次的测量结果都类似“上帝掷骰子”会发生不同,但是只要量子算法设计合理,量子计算机运算结果中出现概率最大的结果就是正确结果。面对较为复杂的计算问题,经典算法需要进行各态遍历等重复操作,算法的复杂度较高,而量子算法则能较快得到结果,只需少数测量取样得到计算结果概率即可知道正确结果。
量子计算有望突破各大领域的运算技术瓶颈,应用前景广阔。量子计算机能够帮助运行更为复杂的模拟,比如气候变化模型或帮助开发新的药物等。对于人工智能、虚拟现实等因为计算能力而遭遇瓶颈的领域,量子信息将彻底加速产业进化,人类历史上最重要的科技革命有望来临。

量子计算机商用预测三个阶段,当前第一阶段已经走完。在量子计算的原型机的开发这一水平上,谷歌提出的量子霸权是标志性事件。
第二阶段是接下来的十年,重点是寻找专用级的芯片,用它来解决特定行业的问题。
第三阶段,是再往后十几年的时间,目的是真正把通用量子计算机实现出来。波士顿咨询曾经预测,到2030年,保守估计市场需求有21亿美金,乐观估计可以有600亿美金,到2050年的时候可以达到2600~3000亿美金。

量子计算领域科技公司和初创企业分布

投资机会:

参考资料:
20230214-浙商证券-ChatGPT研究框架
20230214-太平洋-从应用到算力,ChatGPT点燃基础设施需求
20230209-中信证券-ChatGPT驱动算力爆发,关注算力上游核心环节投资机会
20230212-安信证券-电子:ChatGPT开启AIGC商用时代,算力需求打开AI芯片成长空间
20230214-海通证券-半导体产品与半导体设备:OpenAI算力需求测算
本报告由研究助理协助资料整理,由投资顾问撰写。投资顾问:王德慧(登记编号:A0740621120003)
免责声明:以上内容仅供参考学习使用,不作为投资建议,此操作风险自担。投资有风险、入市需谨慎。
推荐阅读
相关股票
相关板块
相关资讯
扫码下载
九方智投app
扫码关注
九方智投公众号
头条热搜
涨幅排行榜
暂无评论
赶快抢个沙发吧