使用变压器的单目RGB场景重建

Meedo

TransformerFusion是一种基于变压器的3D场景重建方法.
原链：https://aljazbozic.github.io/transformerfusion/
代码：https://github.com/AljazBozic/TransformerFusion
作者：@Aljaž Božič @Pablo Palafox @ Justus Thies @Angela Dai @Matthias Nießner

摘要

使用变压器的单目RGB场景重建

我们介绍了TransformerFusion，这是一种基于变压器的3D场景重建方法。从输入单目RGB视频，视频帧由融合观察结果的变压器网络处理转换为表示场景的体积特征格网;然后将此特征网格解码为隐式 3D 场景表示。我们方法的关键是变压器架构，它使网络能够学习关注场景中每个 3D 位置最相关的图像帧，仅由场景重建任务。要素以从粗到细的方式融合，存储精细级要素仅在需要时，需要较低的内存存储并以交互速率实现融合。特点然后使用基于MLP的表面占用将网格解码为更高分辨率的场景重建从插值粗到细 3D 特征的预测。我们的方法产生精确的表面重建，优于最先进的多视图立体深度估计方法，全卷积 3D重建方法，以及使用基于LSTM或GRU的循环网络进行视频序列的方法融合。