NVIDIA 推出 DiffusionRenderer:精准编辑 3D 场景与照片级图像的新利器
近年来,计算机科学家开发了越来越复杂的生成式人工智能模型,能够根据特定输入或指令创造个性化内容。然而,尽管这些图像生成模型已经得到广泛应用,但许多模型仍然不可预测,精准控制它们生成的图像仍是一项挑战。 在今年6月11日至15日举办的计算机视觉和模式识别会议(CVPR 2025)上,NVIDIA的研究人员介绍了一种新的机器学习方法DiffusionRenderer。这一工具旨在推进图像生成与编辑技术的发展,使用户能够更精准地调整特定图像属性。NVIDIA的AI研究副总裁Sanja Fidler表示:“生成式AI在视觉创作方面取得了巨大进展,但它引入了一个全新的创意工作流程,与经典图形创作方式不同,仍然存在可控性的问题。通过DiffusionRenderer,我们希望弥合这一差距,结合传统图形流水线的精确性和AI的灵活性。我们的目标是探索和设计下一代渲染技术,使其更易访问、更可控,并能轻松集成到现有工具中。” DiffusionRenderer的核心功能是能够将单个二维视频转换为图形兼容的场景表示。更重要的是,它允许用户调整这些场景中的光照和材料,从而生成符合需求和偏好的新内容。Fidler指出:“DiffusionRenderer是一个巨大的突破,因为它同时解决了计算机图形学长期以来面临的两个挑战——从真实世界视频中提取几何结构和材料的逆向渲染,以及从场景表示中生成逼真图像和视频的正向渲染。其中一个最令人兴奋的成就是,它将生成式AI引入到了图形工作流的核心,通过提高通常耗时的任务(如资产创建、重新打光和材质编辑)的效率,来补充传统的图形处理方法。” 该技术基于扩散模型,一类通过逐步将随机噪声转化为连贯图像的深度学习算法。与过去的其他图像生成技术不同,DiffusionRenderer首先生成G-缓冲区(即概述特定属性的中间图像表示),然后利用这些表示来创建新的逼真图像。研究人员还强调了他们构建高质量合成数据集的突破,这些数据集具有准确的光照和材料信息,有助于模型更真实地分解和重建场景。当与NVIDIA Cosmos技术结合时,效果更加明显,生成的图像更为清晰和一致。 未来,DiffusionRenderer有望被机器人研究者和创意专业人士广泛使用。例如,对于开发电子游戏、制作广告或影视作品的内容创作者而言,这项技术能够让他们以高精度添加、移除或编辑特定属性。此外,它还可以帮助计算机科学家生成逼真的数据集,用于训练机器人的算法或图像分类模型。Fidler补充说:“它的另一个重要影响是在仿真和物理AI领域,特别是在机器人和自动驾驶车辆培训中,需要尽可能多样的数据集,而DiffusionRenderer可以为新场景生成新的光照条件。” 未来的研发方向包括生成更高品质的结果、提高运行效率,并增加更多强大的功能,如语义控制、对象合成以及更高级的编辑工具。 业内人士高度评价了DiffusionRenderer的技术突破,认为这标志着生成式AI与图形学的深度融合,未来有望显著提升内容创作和机器学习数据生成的效率。NVIDIA作为全球领先的显卡和AI计算解决方案提供商,一直致力于推动图形学和AI技术的进步。此次DiffusionRenderer的推出无疑进一步巩固了其在行业的领先地位。