第一个站内站

第一个站内站

清华与腾讯联手,Scene Splatter实现3D场景生成新突破


在科技日新月异的今天,三维场景的构建已成为世界模型、具身智能等前沿科技领域不可或缺的一环。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型在三维生成领域取得了显著进展,但它们大多局限于物体级别的内容生成,难以应对复杂三维场景的构建挑战。近日,清华大学与腾讯携手,提出了Scene Splatter这一创新方案,为三维场景生成带来了全新的突破。

基于单张图片恢复三维场景,一直被视为一个病态问题。传统三维重建方法依赖于多视角图像的匹配与计算,而在单张图片的条件下,由于缺少几何约束,重建的场景往往会出现结构扭曲、缺失和飘浮等问题。为了解决这一难题,引入视频扩散模型强大的生成先验为场景补充多视角信息,再利用多视角重建技术恢复三维场景,成为了一条充满前景的道路。然而,视频生成模型的能力限制使得其生成内容难以保持充分的三维一致性。

Flash3D作为重建方法,未引入生成信息,存在失真和遮挡的问题;而CogVideo和ViewCrafter虽然具备生成能力,但会改变场景的颜色风格和内容。为了克服这些挑战,Scene Splatter从动量的视角出发,创新性地构建了级联式的动量引导视频生成机制。

第一级是从原始特征中构建噪声样本,作为动量添加到去噪得到的特征中,通过自适应的参数来控制动量强度,以增强视频细节并保持场景的一致性。然而,这种基于潜空间的动量会限制扩散模型在未知区域的生成能力。因此,第二级进一步引入一致性强的视频作为像素级动量,将其与不含动量直接生成的视频融合,以更好地恢复未知区域信息。

通过这种级联式动量机制,Scene Splatter能够引导视频扩散模型生成具有高保真度和一致性的多视角新视频。在得到多视角新视频后,Scene Splatter还会对全局高斯表示进行微调,利用增强的视频帧来优化高斯表示,并在新视角进行渲染,以支持后续的动量更新。通过逐步迭代,Scene Splatter可以实现对三维场景的逐步恢复,突破视频生成模型在长度上的限制。

性能展示方面,Scene Splatter在补全场景的同时保持了三维一致性。通过在不同图像风格和相机轨迹上的实验,可以发现Scene Splatter在保持场景一致性的同时提供了高质量的观察结果。从卡通到真实图像,从室内到室外场景的各种输入风格,Scene Splatter均能够很好地平衡模型的生成能力与一致性。此外,模型还能够很好地泛化到不同的相机轨迹中,支持任意视角轨迹的三维探索。

随着技术的不断进步,我们有理由相信,Scene Splatter将在三维场景生成领域发挥越来越重要的作用,为前沿科技的发展贡献更多力量。
cache
Processed in 0.012643 Second.