PrimitiveAnything - 腾讯与清华大学合作打造全新3D形状生成框架,开启创意设计新纪元
PrimitiveAnything是什么
PrimitiveAnything是腾讯人工智能平台部(AIPD)和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元,最终重新组装成完整的3D形状。框架的核心优势在于其高质量的生成效果、强大的泛化能力和高效性。

PrimitiveAnything的主要功能
- 高质量3D原语组装生成:能生成高质量的3D原语组装,这些组装在几何上忠实于原始模型,还符合人类对形状的直观理解。
- 多样化3D内容创作:支持从文本或图像条件生成3D内容,为用户提供了灵活的创作方式。
- 高效存储和编辑:由于使用了原语表示,生成的3D模型在存储上更加高效,同时易于编辑和调整。
- 自回归变换器架构:通过自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并且可以轻松扩展到新的原语类型。
- 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定性和准确性。
- 几何保真度与语义一致性:在生成过程中,PrimitiveAnything保持了高几何保真度,能生成符合人类认知的语义分解结果。
- 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需修改架构,能适应不同的原语表示。
PrimitiveAnything的技术原理
- 无歧义的参数化方案
- 统一表示:使用多种类型的基元(如立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状,每种基元的类型、位置、旋转和缩放等属性都被编码并输入到模型中。
- 消除歧义:为了解决参数化中固有的歧义性(例如,不同的参数组合可能产生相同的形状),研究团队开发了一套全面的规则,通过分析基元的对称性,选择旋转参数L1范数最小的一组作为唯一表示,确保了训练过程的稳定性和准确性。
- 自回归变换器架构
- 形状条件化:框架采用基于解码器的Transformer架构,能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。
- 级联解码器:为了建模基元属性之间的依赖关系,框架使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性。捕捉了基元属性之间的自然相关性,例如基元类型会影响其可能的位置、旋转和缩放参数,与人类组装逻辑相符。
- 自回归生成流程
- 序列生成:将整个基元抽象过程重新构思为一个序列生成任务,模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。
- 训练目标:在训练过程中,结合了交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel-Softmax(用于可微采样),直到生成序列结束标记。能灵活且类人地分解复杂的3D形状。
PrimitiveAnything的项目地址
- 项目官网:https://primitiveanything.github.io/
- Github仓库:https://github.com/PrimitiveAnything/PrimitiveAnything
- HuggingFace模型库:https://huggingface.co/hyz317/PrimitiveAnything
- arXiv技术论文:https://arxiv.org/pdf/2505.04622
PrimitiveAnything的应用场景
- 3D建模与设计:PrimitiveAnything能快速生成复杂的3D模型的“几何骨架”,设计师可以在此基础上专注于细节精修,提升了工作效率和设计速度。
- 游戏资产生成:游戏设计师可以用PrimitiveAnything快速生成各种游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具,由AI自动进行优化调整,无缝集成到物理引擎中。
- 用户生成内容(UGC):框架支持从文本或图像输入生成3D内容,用户可以轻松编辑生成结果,为游戏中的UGC提供了新的可能性。
- 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,PrimitiveAnything可以快速生成逼真的3D对象,增强用户体验。
发表评论