VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer,性能超越多项现有几何或深度学习方法,具有广泛的应用潜力。 传统的三维视觉(如Structure-from-Motion、Multi-view Stereo)方法严重依赖几何优化(如Bundle Adjustment),不仅计算复杂、时间消耗大,还难以端到端训练。本研究提出的问题是:能否使用简单的前馈神经网络(无后处理)同时预测所有核心3D属性(相机参数、深度图、点云图、3D轨迹),并优于传统几何优化方案? 这篇论文的核心内容是提出了一种基于物理模型的神经逆向渲染方法,用于从多视点、时间分辨的激光雷达(LiDAR)测量数据中重建场景几何和材质,并生成新的光传播视频。 第一,提出时间分辨辐射缓存(time-resolved radiance cache),记录某一时刻某个位置的光线是从哪来的、经过了哪些反射。这个缓存可以理解为一个“光的地图”,能告诉我们光是怎么传播的。 第二,用神经网络加速计算。“提前学会”光的传播规律。这样一来,只需要简单查询这个“光的记忆库”,就能快速计算出场景中每一点的光线分布。 本文提出了一种系统,能够从动态场景的普通单目视频中准确、快速且鲁棒地估计相机参数和深度图。传统的结构光束法(SfM)和单目SLAM方法通常依赖于具有大量视差且主要为静态场景的视频输入,在不满足这些条件时,容易产生错误估计。 大量在合成和真实视频上的实验表明,该系统在相机姿态和深度估计方面的准确性和鲁棒性明显优于现有和同期工作,同时运行速度更快或相当。 本文提出了一种导航世界模型(Navigation World Model,简称NWM),这是一种可控的视频生成模型,能够基于过去的视觉观测和导航动作预测未来的视觉观测。 实验结果显示,NWM可以在没有现成导航策略的情况下,直接规划出合理的路径。对于其他导航系统生成的路径,NWM可以对其进行排名,找到最优解。 本项研究提出了一个新的视觉-语言模型家族Molmo,是当时最强开源模型之一。它有72亿参数规模,不仅拿下开源SOTA,还超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等(注:该论文第一版发表时间为2024年9月) 作者认为,现有性能最强的开源权重模型在很大程度上依赖于由闭源VLM生成的合成数据来获得良好表现,实质上是将这些闭源模型“蒸馏”成开源模型。 例如重叠多裁剪(overlapping multi-crop)图像处理策略、改进了视觉-语言连接模块、设计了支持指点能力的训练流程,这些创新提高了模型对复杂视觉任务(如定位、计数、自然图像理解)的能力。 随着3DGS(3D高斯泼溅)逐渐成为众多模型的基础组件,任何对3DGS本身的改进都可能带来巨大的收益,为此,作者致力于改进3DGS的基本范式和公式结构。 因此,作者提出了一种由灵活的Student’s t分布(distribution)组成的新型混合模型,它具有正密度(泼溅Splatting)和负密度(挖空Scooping)两种形式,这就是其名称的由来。 SGHMC通过在优化过程中引入动量变量(momentum)和受控噪声项,使得参数在优化过程中能跳出局部最优,同时能有效缓解参数之间的耦合问题。 在使用相似数量组件的情况下,SSS 可实现相当甚至更高的渲染质量,同时在某些场景下可将组件数量最多减少 82%,仍保持可比的结果。


