本报告导读:
GPT4发布在即,模型将不再强调参数规模的扩张,转而向多模态发展;随着多模态的引入,我们预计下游应用空间将显著打开。
摘要:
GPT-4即将发布,多模态趋势凸显。2023 年3月9 日,微软德国CTOAndreas Braun 宣布GPT-4 将在3.13-3.19 日发布,将提供完全不同的可能性——如图像、视频。结合微软3 月初发布多模式大型语言模型Kosmos-1,可以推断大模型包括GPT4 将向多模态发展,多模态将成为下一波浪潮的核心。
多模态是GPT系列发展的必然趋势,也是多元化应用落地的基础。
当下,图像化应用已打开新型市场空间,3 月8 日微软开源了重量级的ChatGPT AI 交互应用VisuaChatGPT,通过调用ChatGPT 以及一系列视觉基础模型,实现了在聊天过程中发送和接收图像,以及动态对图像进行处理,在ChatGPT 的基础上拥有了VQA(视觉问答)和AI 作画的能力。VisuaChatGPT 发布后短短一天,在Github 就达到了4000 星,文本生成图像功能已经如此引发市场追捧,GPT-4 按照预期拓展到视频方向,文字生成视频、图像生成视频功能有望进一步奠定视觉方面应用落地,拓展市场格局。
图像端已有应用落地,视频等多模态的引入将打开下游行业应用空间。当前,不论是OpenAI 的DALL-E2,还是AIGC 领域的StableDiffusion 都已在图像领域进行了初步探索,并引起不小的反向。预计多模态短期内将在搜索引擎和聊天机器人上实现落地,为用户使用感带来巨大提升。考虑到当今信息数据有相当部分是以图像和视频的形式呈现,具有图像、视频处理能力的GPT-4 对用户的反馈将从更完整的来源获得信息并以多媒体的形式呈现,有效地提高用户体验。远期看,多模态将打开视觉方向,图片生成、视频创作能力,将协助GPT-4 在各类商业模式上实现进一步的拓宽,从而实现多媒体交互。
投资建议:ChatGPT 的应用场景正大幅拓展且已找到可落地的商业模式,我们基于核心应用场景、配套基础设施两个视角,推荐科大讯飞、格灵深瞳;受益标的商汤、云从科技、海天瑞声、拓尔思、寒武纪等。
风险提示:ChatGPT 技术商业化落地不及预期、ChatGPT 的应用成本过高。



