行情中心 沪深A股 上证指数 板块行情 股市异动 股圈 专题 涨跌情报站 盯盘 港股 研究所 直播 股票开户 智能选股
全球指数
数据中心 资金流向 龙虎榜 融资融券 沪深港通 比价数据 研报数据 公告掘金 新股申购 大宗交易 业绩速递 科技龙头指数

谷歌又来炸场!大热生图模型升级,Nano Banana Pro提供“摄影棚级别”精度和控制

华尔街见闻 11-21 05:30

谷歌的最强大人工智能(AI)模型Gemini 3刚发布两天,就来返场送惊喜了。

美东时间20日周四,谷歌宣布,基于Gemini,升级其大热的图像生成与编辑模型。新推出的模型Nano Banana Pro号称能提供“摄影棚级别”的精度和控制,在文本渲染准确性、分辨率和专业控制能力上实现显著提升,旨在将AI图像工具从消费级应用推向专业设计领域。

Nano Banana Pro支持生成最高4K分辨率的图像,可在多语言环境下精确渲染文本,并允许用户像使用专业相机一样控制拍摄角度、景深、色彩和光照等参数。谷歌Labs和Gemini副总裁Josh Woodward表示,该产品在信息图表制作、幻灯片设计等方面表现出色,可保持最多五个角色和十四个物体的一致性。

谷歌的全球免费Gemini用户将能够在配额限制内使用Nano Banana Pro,超出配额后将自动切换回旧版模型,付费AI计划订阅用户则拥有更高使用额度。该模型已集成至Canva、Figma、Adobe Firefly和Photoshop等主流设计工具。

谷歌还同步推出了AI内容溯源功能。用户可在Gemini应用程序App中上传图像,查询其是否由谷歌AI生成,该功能未来将扩展至音频和视频。此举是谷歌将AI技术商业化的最新尝试,也是其在生成式AI竞赛中追赶OpenAI的重要一步。

这一发布延续了谷歌本周在AI领域的强劲势头。周二发布的Gemini 3在推理和编码能力上实现"巨大跃升",周三推动谷歌母公司Alphabet股价创历史新高。周四官宣Nano Banana Pro当天,股价早盘一度涨近5%,但午盘追随大盘转跌,收跌约1%,暂别周三刷新的收盘最高纪录。

攻克AI拼写难题,文本渲染实现突破

AI图像生成模型长期面临的一个核心挑战是文本渲染准确性。虽然部分模型随时间推移改进,但在生成包含多个文本短语的图像时,拼写错误和字体扭曲仍然常见,这限制了其作为专业设计工具的潜力。

Nano Banana Pro直接针对这一问题提供解决方案。谷歌发言人表示,新模型在渲染最终图像前,能够更好地规划文本位置、字体特征及其与其他图像元素的空间关系。该技术可将菜谱文本转换为图解流程图,或可视化天气、体育等实时信息。

Nano Banana Pro支持生成清晰可辨的文本,用户可描述所需字体类型或模拟不同手写风格,还能在图像内生成本地化文本或翻译文字。这使用户能够创建针对国际市场的产品展示、海报和信息图表。谷歌在博客文章中强调,锐利、清晰的文本帮助用户制作富有冲击力的海报、复杂图表和详细产品模型。

不过谷歌也提醒用户注意局限性。新模型在生成信息图表、标注图表或呈现复杂数据时,可能误读信息或产生事实错误。虽然能够生成和翻译多语言文本,但在语法、拼写、文化细微差别或惯用语方面仍可能出现问题。用户应始终仔细检查生成的图像及其中文本的准确性。

专业级控制功能,分辨率跃升至4K

Nano Banana Pro为专业用户提供了前所未有的精细控制能力。用户可探索不同拍摄角度和类型,包括广角、全景、特写等,还能调整景深以聚焦图像中的不同主体。

在色彩和光照方面,用户可调整色调分级和光照方向,甚至可将场景从白天转换为夜晚。

模型支持1K、2K和4K三种分辨率的精准放大,并能随意切换纵横比以适配不同平台或用途。

分辨率提升的代价是成本增加和速度下降。原Nano Banana模型生成1024像素图像的成本为0.039美元,而新模型生成1080p或2K图像的成本为0.139美元,4K图像为0.24美元。

在素材一致性方面,模型可在单一工作流程中保持最多五个角色的一致性和相似度,以及最多十四个物体的保真度。对于希望在营销活动中融入自身设计的品牌,模型可接收最多14张参考图像,并在用户文本提示描述的新场景中重新编排它们,同时保留输入素材的特征。

模型还能将草图转化为物体,将手绘笔记转为图表,将创意变成3D渲染建筑。用户可一次创建多张图像,快速高效地探索和审查创意选项。谷歌表示,模型还能创建具有真实细节的风景、植物、人物和动物的逼真图像。

广泛产品集成,付费用户获更高配额

Nano Banana Pro正在谷歌现有AI工具中全面推广。Gemini App将默认使用新模型生成图像,免费订阅用户可在限定配额内使用,超出后将切换回原Nano Banana模型。Google AI Plus、Pro和Ultra订阅用户将获得更高生成额度,这些付费用户还可在Notebook LM中使用该模型。

在美国地区,AI Pro和Ultra订阅用户可通过AI模式在搜索中访问该模型。Ultra订阅用户还能在谷歌视频工具Flow中使用,Workspace客户可在Google Slides和Vids中使用。开发者则可通过Gemini API、Google AI Studio和新IDE Antigravity调用Nano Banana Pro。

谷歌同时将其SynthID技术整合至Gemini应用,用于为AI生成图像添加水印和检测。用户可上传图像,聊天机器人将告知该图像是否由谷歌图像模型创建或修改。谷歌目前为所有AI工具创建的媒体嵌入不可见的数字水印,免费或Pro方案的订阅用户创建的图像还会添加可见水印,订阅最高价Ultra方案的用户则可移除可见水印。谷歌未提及是否计划支持C2PA等其他AI水印标准。

用户增长强劲,商业化进程提速

Nano Banana Pro的前身Nano Banana今年8月面世后在社交媒体上迅速走红,用户将自己或宠物的照片转化为超写实3D小雕像。Woodward在9月的X帖子中写道,该产品帮助Gemini应用在四天内新增1300万用户。

据谷歌发布的数据,Gemini App目前每月活跃用户超过6.5亿,由Gemini驱动的AI Overviews每月用户达20亿。相比之下,OpenAI CEO Sam Altman在10月表示,ChatGPT每周活跃用户达8亿。

Woodward本周四表示,谷歌AI产品需求持续增长,许多用户注册Gemini订阅计划以获得"这些高级模型的更高限额"。他表示,"我们看到大量用户涌向这些产品,这实际上是最好的问题——需求很大,我们正在努力弄清楚如何服务这些需求。"

此次发布标志着谷歌将AI技术商业化的最新尝试。自2022年ChatGPT发布引发生成式AI竞赛以来,谷歌一直在努力追赶OpenAI。上周,OpenAI宣布对GPT-5模型进行两项更新,使其"默认更温暖、更具对话性",并"在日常使用中更高效、更易理解"。目前ChatGPT在苹果App Store免费应用榜单中排名第一,Gemini位居第二。

Woodward表示,公司计划继续扩大AI产品规模,重点包括AI电影制作工具Flow和目前作为有限研究预览版提供的"世界构建"模型Genie。

免责声明:本页所载内容来旨在分享更多信息,不代表九方智投观点,不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。

举报

相关股票

相关板块

  • 板块名称
  • 最新价
  • 涨跌幅

相关资讯

扫码下载

九方智投app

扫码关注

九方智投公众号

头条热搜

涨幅排行榜

  • 上证A股
  • 深证A股
  • 科创板
  • 排名
  • 股票名称
  • 最新价
  • 涨跌幅
  • 股圈