NVIDIA Research开发了一项具有突破性的AI技术,有望彻底改变影视和游戏行业的视觉特效制作方式。DiffusionRenderer在CVPR 2025大会上发布,标志着计算机图形学领域的根本性变革:它将传统上分离的逆向渲染与正向渲染,通过神经网络框架实现了统一。
该系统采用了基于视频扩散模型的两阶段方法。首先,神经逆向渲染器分析普通RGB视频素材,智能估算场景的内在属性,生成描述几何(深度、法线)和材质(颜色、粗糙度、金属度)等像素级数据缓冲区(G-buffer)。随后,神经正向渲染器利用这些G-buffer,无需显式的光线传输仿真,即可生成照片级真实感图像。
DiffusionRenderer的革命性在于,它无需传统物理渲染(PBR)所需的精确3D场景建模和高昂的路径追踪计算。“经典PBR依赖于精确的三维几何、高质量材质属性和照明条件,而这些在现实场景中往往难以获得。”NVIDIA AI研究副总裁Sanja Fidler解释道。
对于独立电影人和小型工作室而言,这项技术意味着高端视觉特效的普及。创作者只需拍摄一段普通RGB视频,即可通过DiffusionRenderer添加投射真实阴影和反射的CGI元素——无需昂贵的光照舞台、LiDAR扫描或专业设备。该系统还可动态重光照整个场景、变更材质,并将虚拟物体无缝插入真实画面。
自初步开发以来,NVIDIA已将DiffusionRenderer与其Cosmos Predict-1基础模型集成,实现了更高质量的效果。该技术基于Apache 2.0和NVIDIA Open Model License开源,代码与模型权重已在GitHub开放。随着分辨率和动态范围的持续提升,DiffusionRenderer有望成为各类预算创作者的必备工具,从根本上改变影视、广告和游戏开发中的视觉叙事方式。