南京证券:积极拥抱AIGC技术变革!关注应用落地
从技术上看,生成算法、预训练模型、多模态等AI技术累计融合,成为了AIGC爆发的关键因素。从流程上看,算法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。
基础的生成算法模型不断突破创新:Transformer模型的推出为预训练模型奠定了基础。
预训练模型包括:(1)自然语言处理(NLP),如谷歌的LaMDA和PaLM、OpenAI的GPT系列;(2)计算机视觉(CV),如微软的Florence;(3)多模态预训练,即融合文字、图片、音频视频等多种内容形式。
多模态模型技术推进主要来源于:2021年OpenAI团队推出跨模态深度学习模型CLIP,后续“CLIP+其他模型”成为跨模态生成领域的通用做法。
2021年3月,OpenAI发布AI绘画产品DALLE,只需要输入一句文字,DALLE就能理解并自动生成一副意思相符的图像,且该图像是独一无二的。
超级深度学习近年来的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并未AIGC技术能力的升级提供了强有力的支撑和全新的可能性。
当前AIGC技术已经从最初追求生成内容的真实性的基本要求,发展到满足生成内容多样性、可控性的进阶需求,并开始追求生产内容的组合型。例如:虚拟数字世界中人、物和环境间的交互组合生成为整体场景。大模型具备易扩展性,能够实现跨模态的知识沉淀,以大模型为基础模型,通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力,具有超大规模、超多参数量的多模态大型神经网络将引领AIGC技术升级正在成为学界、产业界共识。
视觉大模型提升AIGC感知能力:在环境感知、内容检索、语义理解、模态对齐等任务上具备先天的优势,能够提升AIGC基础环境孪生能力、丰富AIGC应用场景。
语言大模型增强AIGC认知能力:体现在训练模型的数据量日益增大、数据种类也更加丰富,模型规模增大、参数量以指数倍增加。通过不断构建语义理解能力增强、逻辑知识可抽象学习、同时适用于多种任务的语言大模型,利于AIGC场景中的各项认知应用。
多模态大模型升级AIGC内容创作能力:不是单一的视觉大模型的环境感知能力或者是语言大模型的认知能力,多模态大模型拥有两种能力:一种是寸照不同莫泰数据之间的对应关系,例如:将一段文本和与之对应的图片联系起来;另一个是实现不同莫泰数据间的相互转化与生成,例如:根据一张图片生成对应的语言描述。
(来源:南京证券)
免责声明:本页所载内容来旨在分享更多信息,不代表九方智投观点,不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。
相关股票
相关板块
相关资讯
扫码下载
九方智投app
扫码关注
九方智投公众号
头条热搜
涨幅排行榜
暂无评论
赶快抢个沙发吧