VAST 成⽴于 2023 年 3 ⽉,是⼀家致⼒于通⽤ 3D 大模型研发的 AI 公司,公司⽬标是通过打造⼤众级别的 3D 内容创作⼯具,建⽴ 3D 的 UGC 内容平台,让基于 3D 的空间成为⽤户体验、内容表达、提升新质⽣产⼒的关键要素。
2024 年初,VAST 推出数⼗亿参数级别的 3D⼤模型 Tripo 1.0,8 秒就可用图/⽂生成 3D ⽹格模型,上线至今全球⽤⼾⽣成超过 500 万个 3D 模型。
2024 年 3 ⽉,VAST 与全球顶级开源社区 Stability AI 共同推出开源 3D 基础模型 TripoSR,该模型创造了 0.5 秒完成单图⽣ 3D 模型的顶尖表现,⾄今仍是 3D ⽣成领域开源社区的热⻔项⽬。
2024 年 9 月,VAST 推出 Tripo 2.0,验证了3D 大模型的 Scaling Law,也将 3D 生成推向下一个里程碑。
Tripo 2.0 采⽤了融合 DiT 和 U-Net 模型的复合架构,通过学习捕捉⼤规模数据中的⼏何和材质分布,更好地保证了 3D 模型⼏何形状的细节和材质的输出质量。
Tipo 2.0 能够完成 10 秒⽣成形状⼏何、10 秒⽣成纹理及 PBR,为 3D ⽣成领域设⽴了通⽤模型新的效果标准。
据我们所知,Tripo 在所有的 3D 生成任务的效果中均处于全球领先地位。
GPTEval3D:基于 MLLM 的评估指标(3D 生成形状、纹理质量、细节表现、输入条件遵循性、输出多样性),旨在评估生成的 3D 内容的语义准确性和质量
对于创作3D内容的用户而言,文字输入的生成方式提供了“言出法随、创造世界”的可能,图片输入则提供更多创作过程中的可控性。
与传统 3D 重建的应用场景不同,大部分纯粹的创意概念可能超出了现实世界的物理限制。许多游戏、设计项目或虚拟场景中的 3D 内容实际上也没有现实中的实体。某些环境异常恶劣,即使投入大量资金购买先进的扫描设备,也无法扫描、修复或重建这些内容。
因此,3D 大模型对于文字生成复杂组合物体的能力、以及单图输入的空间理解及还原的能力,就成为评价体系中最为重要的考察标准。
对于 Tripo 而言,这意味着需要具备以下能力:
第一是精准的语言理解能力,将用户的文本输入意图准确地反映成物体的几何结构和组成细节,还包括文本中各部分之间的空间关系;
第二是对空间的深度和精确还原能力,确保从任意视角的单一图片中准确推断三维结构和深度信息,精确还原复杂物体的几何形状和纹理细节,并保持整体一致性;
第三是对于物理规律和常识的理解能力,确保生成的内容既符合用户意图,又在遵循基本物理法则的情况下保持逻辑一致性,使结果在创意自由度和现实合理性之间找到平衡;
这就是 Tripo 交出的答卷:见微知著,探索世界的背面。