Scenethesis – 英伟达全新推出的交互式三维场景构建框架,引领虚拟创作新风潮

Scenethesis是什么

Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM 进行粗略布局规划,基于视觉模块细化布局生成图像指导,用优化模块调整物体姿态确保物理合理性,基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景,具有高度的真实感和物理合理性,广泛应用在虚拟内容创作、仿真环境和具身智能研究等领域。

Scenethesis

Scenethesis的主要功能

  • 文本生成3D场景:用户输入文本描述,AI自动生成对应的3D场景。
  • 物理合理性:生成的场景物体不会相互穿透,能稳定放置,符合物理规则。
  • 用户交互:用户能调整物体位置、大小等,场景实时更新。
  • 多样化场景与物体库:支持多种室内外场景,包含丰富3D模型供选择。
  • 场景验证:自动检查场景质量,必要时重新生成优化,确保高质量输出。

Scenethesis的技术原理

  • 粗略布局规划(LLM模块):用户输入文本描述后,LLM对文本进行解析,理解场景的主题和关键元素。LLM从预定义的3D模型库中选择与场景描述相关的物体,生成一个粗略的布局计划。LLM生成详细的提示,描述场景中物体的初步位置和关系,为后续的视觉细化提供基础。
  • 视觉细化(视觉模块):根据LLM生成的提示,视觉模块(如基于扩散模型的图像生成器)生成详细的图像,作为场景布局的视觉指导。基于预训练的视觉基础模型(如Grounded-SAM和DepthPro)对生成的图像进行分割和深度估计,提取场景图,包括物体的3D边界框和空间关系。根据场景图和提示,从3D模型库中检索与场景描述匹配的3D物体模型。
  • 物理优化(物理优化模块):基于语义对应匹配技术(如RoMa)对3D模型和图像指导中的物体进行姿态对齐,确保物体的位置、尺寸和方向与图像指导一致。用有符号距离场(SDF)技术检测物体之间的碰撞,调整物体的位置和尺寸,避免碰撞。
  • 场景验证(场景验证模块):基于预训练的语言模型评估生成场景的空间连贯性,确保物体的位置和关系符合常识。如果评估结果不满足要求,系统将触发重新规划和优化过程,直到生成的场景达到高质量标准。

Scenethesis的项目地址

  • 项目官网:https://research.nvidia.com/labs/dir/scenethesis/
  • arXiv技术论文:https://arxiv.org/pdf/2505.02836

Scenethesis的应用场景

  • 虚拟现实(VR)/增强现实(AR):创建沉浸式虚拟环境,如虚拟旅游或展厅。
  • 游戏开发:快速生成游戏关卡和虚拟世界,提高开发效率。
  • 具身智能:为AI训练提供逼真的虚拟场景,如家庭环境。
  • 虚拟内容创作:生成电影、动画或广告的场景原型,加速创作流程。
  • 教育和培训:模拟实验室或培训场景,用于教学和技能练习。

发表评论