TransformerFusion是一种基于变压器的3D场景重建方法.
原链:https://aljazbozic.github.io/transformerfusion/
代码:https://github.com/AljazBozic/TransformerFusion
作者:@Aljaž Božič @Pablo Palafox @ Justus Thies @Angela Dai @Matthias Nießner
摘要
我们介绍了TransformerFusion,这是一种基于变压器的3D场景重建方法。从输入 单目RGB视频,视频帧由融合观察结果的变压器网络处理 转换为表示场景的体积特征格网;然后将此特征网格解码为隐式 3D 场景表示。我们方法的关键是变压器架构,它使网络能够 学习关注场景中每个 3D 位置最相关的图像帧,仅由 场景重建任务。要素以从粗到细的方式融合,存储精细级要素 仅在需要时,需要较低的内存存储并以交互速率实现融合。特点 然后使用基于MLP的表面占用将网格解码为更高分辨率的场景重建 从插值粗到细 3D 特征的预测。我们的方法产生精确的表面 重建,优于最先进的多视图立体深度估计方法,全卷积 3D重建方法,以及使用基于LSTM或GRU的循环网络进行视频序列的方法 融合。