微软 TRELLIS 大语言模型:面向生产级 3D 资产生成的大模型及基于 Azure 部署使用指南

2025 年末,微软研究院发布了一个面向 3D 内容创作的开源大模型项目 TRELLIS,并伴随学术论文《Structured 3D Latents for Scalable and Versatile 3D Generation》。该项目通过统一的结构化潜在空间与先进的流模型技术,显著提升了文本/图像到 3D 资产生成的质量与灵活性,同时拓展了 3D 模型的多格式输出与编辑能力,成为当前 3D AI 模型生态中的重要技术之一。 官方 Github 仓库地址:https://github.com/microsoft/TRELLIS TRELLIS 是什么?——核心概念与架构 TRELLIS 是微软构建的大型 3D 资产生成模型,支持输入文本提示或图像,并输出高质量的三维模型资产。其技术创新点主要包括: 统一结构化潜在表示(SLAT):将三维信息编码为一种可扩展的结构化潜在空间表示,使模型能够以统一方式理解和生成不同表现形式的 3D 结果。 整流流(Rectified Flow Transformers):专为 SLAT 设计的生成骨干网络,通过适应 sparse 表示提升生成效率与质量。 大规模训练与预训练模型:模型规模最高达约 20 亿参数,并在包含 50 万多样化三维资产的数据集上训练,具备强泛化能力。 TRELLIS 不仅能生成三维几何,还能捕获复杂纹理与外观信息,使得生成的资产更贴近真实世界中可用的三维内容。 主要功能特性 以下是 TRELLIS 的核心功能模块及技术亮点: 多模态输入能力 TRELLIS 支持以下输入条件: 文本提示(Text-to-3D):通过自然语言描述生成三维资产(提示须清晰准确)。 图像条件(Image-to-3D):根据一张或多张图片生成对应三维模型。 这种多模态输入支持,使 TRELLIS 适用于从概念设计到真实原型的全流程创作。 灵活的输出格式 根据下游需求,TRELLIS 输出包括: 辐射场(NeRF/Radiance Fields):适合渲染与展示 3D 高斯表示:一种可渲染密度表示 传统网格 Mesh:可导出为标准 3D 文件格式(例如 GLB/OBJ)用于游戏、AR/VR 等应用 这种格式灵活性是模型在实际生产环境中落地的关键能力。...

一月 19, 2026 · 2 分钟