PrimitiveAnything - 腾讯与清华大学合作打造全新3D形状生成框架，开启创意设计新纪元

PrimitiveAnything是什么

PrimitiveAnything是腾讯人工智能平台部（AIPD）和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素，通过自回归方式生成这些基元，最终重新组装成完整的3D形状。框架的核心优势在于其高质量的生成效果、强大的泛化能力和高效性。

PrimitiveAnything的主要功能

高质量3D原语组装生成：能生成高质量的3D原语组装，这些组装在几何上忠实于原始模型，还符合人类对形状的直观理解。
多样化3D内容创作：支持从文本或图像条件生成3D内容，为用户提供了灵活的创作方式。
高效存储和编辑：由于使用了原语表示，生成的3D模型在存储上更加高效，同时易于编辑和调整。
自回归变换器架构：通过自回归变换器逐帧生成3D原语，能够处理不同长度的原语序列，并且可以轻松扩展到新的原语类型。
无歧义的参数化方案：通过消除参数化中的歧义，确保模型在训练和生成过程中保持稳定性和准确性。
几何保真度与语义一致性：在生成过程中，PrimitiveAnything保持了高几何保真度，能生成符合人类认知的语义分解结果。
模块化设计：框架的模块化设计支持无缝集成新的原语类型，无需修改架构，能适应不同的原语表示。

PrimitiveAnything的技术原理

无歧义的参数化方案
- 统一表示：使用多种类型的基元（如立方体、椭圆柱体和椭球体）在统一的参数化方案下共同表示3D形状，每种基元的类型、位置、旋转和缩放等属性都被编码并输入到模型中。
- 消除歧义：为了解决参数化中固有的歧义性（例如，不同的参数组合可能产生相同的形状），研究团队开发了一套全面的规则，通过分析基元的对称性，选择旋转参数L1范数最小的一组作为唯一表示，确保了训练过程的稳定性和准确性。
自回归变换器架构
- 形状条件化：框架采用基于解码器的Transformer架构，能根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示，然后由自回归Transformer模型接收这些形状特征和之前生成的基元信息，预测下一个基元的特征。
- 级联解码器：为了建模基元属性之间的依赖关系，框架使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性。捕捉了基元属性之间的自然相关性，例如基元类型会影响其可能的位置、旋转和缩放参数，与人类组装逻辑相符。
自回归生成流程
- 序列生成：将整个基元抽象过程重新构思为一个序列生成任务，模型以点云作为输入条件，然后自回归地生成基元序列，直到预测出结束标记为止。
- 训练目标：在训练过程中，结合了交叉熵损失、Chamfer距离（用于重构准确性）和Gumbel-Softmax（用于可微采样），直到生成序列结束标记。能灵活且类人地分解复杂的3D形状。

PrimitiveAnything的项目地址

项目官网：https://primitiveanything.github.io/
Github仓库：https://github.com/PrimitiveAnything/PrimitiveAnything
HuggingFace模型库：https://huggingface.co/hyz317/PrimitiveAnything
arXiv技术论文：https://arxiv.org/pdf/2505.04622

PrimitiveAnything的应用场景

3D建模与设计：PrimitiveAnything能快速生成复杂的3D模型的“几何骨架”，设计师可以在此基础上专注于细节精修，提升了工作效率和设计速度。
游戏资产生成：游戏设计师可以用PrimitiveAnything快速生成各种游戏场景和角色模型，提高开发效率。玩家也能通过简单的几何积木拼接方式创造新的角色或道具，由AI自动进行优化调整，无缝集成到物理引擎中。
用户生成内容（UGC）：框架支持从文本或图像输入生成3D内容，用户可以轻松编辑生成结果，为游戏中的UGC提供了新的可能性。
虚拟现实（VR）和增强现实（AR）：在虚拟现实和增强现实环境中，PrimitiveAnything可以快速生成逼真的3D对象，增强用户体验。