如果从方法入手的话,我们可以用两张图来理解:
图1
图2上为NeRF的网络结构,下为Semantic-NeRF的网络结构。它向NeRF 网络添加一个分支,并将其输出到语义。与NeRF 一样,Semantic-NeRF 可以连续表达空间信息,因此您可以在Semantic-NeRF 主页上看到各种很酷的演示。这是ICCV 2021的口述作品,如果你关注过上一讲的话,从Semantic-NeRF的demo中应该能推断出这应该是第四种拍摄方式:
图3 这种拍摄方式在SLAM或SFM中比较常见,但用传统的三维重建或RGBD重建很难达到NeRF或Semantic-NeRF那样的效果。所以方法可能很简单,但是工作却很有意义。具体应用可以参考视频。
语义-NeRF应用
稀疏标签的语义视图合成
语义标签去噪(LabelDenoising
语义标签超分辨率(Super-Resolution)
稀疏语义标签传播(LabelPropagation)
多视图语义融合
密集语义3D 重建
在这项工作之后,Zhibo又做了iLabel的工作,结合了imap和semantic-NeRF。我们在这里不再赘述。欢迎有兴趣的同学阅读原文。另一件需要提及的作品是这篇NeSF 文章。志博讲解NeSF时,提到训练样本是场景,而不是图片。这是本文的高级概述。 NeSF首先会训练很多场景,比如100个场景,那么我们就会得到100个NeRF模型。我们对这100个NeRF模型进行网格查询,得到一个密度网格,它实际上是一堆规则点。使用3D 卷积转换为特征网格。特征网格上的体积渲染可以从各个角度渲染语义图像。下面是NeSF 的流程图。
图4 NeSF流程图从demo来看NeSF的泛化性很好,但这种工作显然不是我们能做的(训练100个NeRF)。你很难猜到工作从哪里来。这也导致了NeRF的很多痛点。记得第四讲的嘉宾在谈野外NeRF和Ha-NeRF时说,每个实验需要4台V100运行2天。因此,无论是推理还是训练,加速工作都显得尤为重要,尤其是语义NeRF相关的工作,因为目前大多数加速工作都倾向于摆脱神经网络。针对动态场景的NeRF 也有一些工作,但是它能像Semantic NeRF 一样轻松工作吗?事实上,它可能会导致很多问题。评价一部作品新颖性的指标之一就是看这部作品挖了多少坑,能够给后续工作带来多少启发。 Semantic NeRF 就是这样一个作品。如果你了解这一系列的工作,我建议你立即看一下panoptic NeRF相关的工作。
审稿人:李茜