HyperAI超神经

Google 最新发布的视频生成模型 Veo 3 现已支持图像输入功能，这一重大更新在 2025 年 6 月推出。用户可以上传一张肖像照片，并结合文字脚本生成视频，展现照片中的主体在讲话、唱歌、朗诵推广台词，甚至是讲笑话的情景。此前，AI 视频面临的核心难题之一是在多个场景中保持角色的一致性。通过这次更新，用户可以利用训练好的图像模型生成多个不同的肖像，再将其输入到 Veo 3 中，生成一系列连贯的视频片段。这种工作流程不仅提高了创作效率，还极大地丰富了内容创作的多样性。在 June 2025 的更新中，当用户打开 Google Labs 上的 Flow 应用时，会看到如下提示：“Veo 3 首帧至视频现在支持语音。上传你的角色图片并赋予其声音。”不过，Google 提醒用户注意，音频功能目前仍处于测试阶段，因此生成的视频可能不总是包含声音。为了防止版权侵权问题，Google 特别提醒用户，在上传任何内容之前，必须确保拥有相应的权利。此外，新的图像输入功能还将允许创作者在短时间内生成高质量的个性化视频，极大地提升了视频内容的生产和分发速度。这一功能的推出标志着 Google 在生成式 AI 领域取得了新的进展。Veo 3 不仅能够根据图像生成动态视频，还支持多种语言和表情的合成，使得视频更加逼真和自然。业内人士认为，这将显著降低内容创作的门槛，使更多人能够参与进来，同时也为商业营销和娱乐产业带来了新的机遇。Google 在人工智能领域的持续创新和技术积累，使其在这一新兴领域继续保持领先地位。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

谷歌Veо 3新增图像输入功能，轻松制作动态视频内容

相关链接

Command Palette

谷歌Veо 3新增图像输入功能，轻松制作动态视频内容

相关链接

Command Palette

谷歌Veо 3新增图像输入功能，轻松制作动态视频内容

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟