Gemini Omni 推出,视频生成进入可对话编辑?
2026 年 5 月 19 日,Google 发布 Gemini Omni,并先推出 Gemini Omni Flash。它是一个面向视频生成和编辑的新模型,重点能力是把文本、图片、视频和音频作为输入,生成高质量视频,并通过自然语言连续修改画面。
和单次生成视频不同,Gemini Omni 强调“可对话编辑”。用户可以先上传或生成一段视频,再要求模型改变背景、动作、镜头角度、视觉风格或局部细节,而且多轮修改需要保留前后上下文。这会让 AI 视频从“抽卡式生成”更接近可控创作流程。
谁能先用
Google 表示,Gemini Omni Flash 会面向 Google AI Plus、Pro 和 Ultra 订阅用户,通过 Gemini app 和 Google Flow 在全球推出;YouTube Shorts 和 YouTube Create App 也会在本周开始免费接入。开发者和企业 API 会在未来几周开放。
这意味着它不是单独的实验模型,而是会进入消费级创作、短视频平台和专业工作流。对创作者来说,最直接的变化是:素材参考、镜头运动、角色一致性、音频节奏和风格迁移可以放进同一条提示链里处理。
行业影响与风险
Gemini Omni 会加速视频生成工具从“做片段”走向“改片段”。营销团队、教育内容、短视频创作者和产品演示会最先受益,因为这些场景需要快速试错和连续修改。但它也会抬高内容真实性识别的压力。
Google 提到,Omni 生成的视频会包含 SynthID 数字水印,并可在 Gemini app、Chrome 和 Search 中验证。这个设计很关键,但不能替代平台审核。实际使用时,团队仍要建立素材授权、肖像同意、AI 标注和人工复核流程,尤其是涉及人物、新闻画面或品牌资产时。