当前位置 > 首页 > 热点专题 > 正文

Facebook公布最新AI成果:如何理解真实世界3D对象
  • 发布时间:2019-11-15
  • www.princesdrawingschool.org
  • 来源:魏莹作家黄岩

    为了解释他周围的世界,人工智能系统必须理解三维视觉场景。 这种需求不仅仅限于机器人技术,还包括导航甚至增强现实应用。 即使是2D的照片和视频也描绘了三维场景和物体 真正智能的内容理解系统必须能够识别视频中杯子旋转时的手柄几何形状,或者物体是位于照片的前景还是背景。

    最近,脸书宣布了几个人工智能研究项目,可以促进3D图像理解。 虽然不同,但它们是相辅相成的。 在国际计算机视觉会议上演示的项目涉及一系列用例和场景,包括不同类型的培训数据和输入。

    网格线是一种新颖先进的解决方案,可以通过各种真实世界的2D图像预测最精确的三维形状。 这种方法使用脸谱网的掩码R-CNN框架分割对象实例,甚至可以检测复杂的对象,如凳子腿或重叠的家具 脸书指出,他们是第一个通过使用C3DPO解释3D几何,在三个基准上成功实现非刚性形状的大规模3D重建的人,C3DPO是网格R-有线电视新闻网的一种替代和补充方法,涉及14种以上的对象。 应该注意的是,该团队只使用2D关键点来实现这个目标,零3D注释 脸书提出了一种新的方法来学习图像和3D形状之间的关联,同时大大减少了对带注释的训练示例的需求。 这使得团队更接近于开发一个能够为更多种类的对象创建3D表示的自我监控系统。 脸书团队还开发了一种名为VoteNet的新技术,可以使用激光雷达或其他传感器的3D输入来进行物体检测。 尽管大多数传统系统依赖于2D图像信号,但该系统完全基于3D点云。 与以往的研究相比,它可以达到更高的精度。

    这项研究的基础包括使用深度学习来预测和定位图像中的对象的最新进展,以及用于3D形状理解的新工具和架构(例如体素、点云和网格)。 计算机视觉领域已经扩展到多种任务,但是3D理解将在支持人工智能系统以进一步理解现实世界和执行相关任务方面发挥核心作用

    1.以高精度预测无约束遮挡物体的三维形状

    感知系统,例如掩模R-CNN,是理解图像的强有力的通用工具 然而,因为它们是基于2D数据预测的,所以它们忽略了世界的三维结构 随着2D传感技术的发展,脸书设计了一个3D物体重建模型,可以从无约束的现实世界图像中预测3D物体的形状,包括具有一系列光学挑战的图像(如具有遮挡、杂乱和各种拓扑的物体) 将第三维引入目标检测系统,同时实现复杂情况下工作的稳定增长,需要更强大的工程能力,而当前的工程体系结构阻碍了该领域的发展。

    网格线可预测输入图像中的对象实例,并推断其三维形状 为了捕捉几何和拓扑的多样性,首先预测粗体素,对其进行细化,并进行精确的网格预测

    为了迎接挑战,Faceboook团队通过网格预测分支增强了Mask R-CNN的2D对象分割系统,并构建了Torch3d(Pytorch library,包含高度优化的3d操作符)来实现该系统。 网格图像神经网络使用掩模图像神经网络来检测和分类图像中的各种对象。 然后,使用一种新的网格预测器来推断三维形状(该预测器由体素预测和网格细化的混合方法组成) 在预测精细的三维结构时,这两个步骤的过程比以前实现了更高的精度。 Torch3d可以通过支持复杂操作的高效、灵活和模块化实现来帮助实现这一目标。

    他们使用探测器2实现了最终的系统,探测器2使用RGB图像作为输入,同时探测物体并预测3D形状。 类似于使用监督学习实现强2D感知的掩模R-CNN,脸书的新方法使用完全监督学习(图像和网格对)来学习3D预测。 在训练中,该团队使用了由图像和网格组成的Pix3D数据集,这比通常包含数十万幅图像和对象注释的2D基准要小得多。

    脸书用两套数据集评估了网状网络,两者都取得了辉煌的成果 对于Pix3D数据集,网格R-CNN是第一个能够同时检测各种对象并预测各种混沌家具场景中的完整3D形状的系统 之前的工作集中在评估完美剪裁、无障碍图像中的模型。 对于ShapeNet数据集,体素预测和网格细化混合方法的性能比以前的研究提高了7% 通过3D形状推理对“网格形状”进行系统回顾,准确预测和重建无约束场景形状是增强虚拟现实和其他新体验的重要一步 然而,收集3D图像的注释数据比收集2D图像的注释数据更加复杂和耗时,因此3D形状预测数据集的发展相对滞后。 因此,脸谱网正在探索使用监督学习和自我监督学习重建三维物体的不同方法。

    相关论文:美国有线电视新闻网网全文

    2。利用2D关键点重建三维物体类别

    脸谱网已经开发了一种替代方法,用于网格对象和相应的图像不能用于训练,并且不需要完全重建静态对象或场景的情况。 新的C3DPO(标准三维姿态网络)系统可以重建三维关键点模型,并通过更广泛的2D关键点监控实现先进的重建结果。 C3DPO可以帮助您以适合大规模部署的方式理解对象的3D几何图形。

    C3DPO根据检测到的2D关键点为一系列对象类别生成3D关键点,能够准确区分视点变化和形状变形

    跟踪对象类别特定部分(如人体关节或鸟翅膀)的2D关键点提供了关于对象几何形状及其形状变形或视点变化的完整线索 生成的3D关键点非常有用,例如,用于建模3D人脸和全身网格,以便为虚拟现实构建更真实的虚拟化身图形。 类似于网格线,C3DPO使用无约束图像重建三维物体

    C3DPO是第一种可以重建包含数十万幅图像和数千个2D关键点的数据集的方法 脸书已经为三个不同的数据集和超过14个不同类别的非刚性物体实现了先进的重建精度。 相关代码已被管理到GitHub

    脸书的模式包含两个重要的创新 首先,给定一组单目2D关键点,该新的三维重建网络将预测相应摄像机视点的参数和三维关键点位置 其次,脸谱网提出了一种新的规范化技术,叫做规范化定位(包括第二个辅助深度网络) 该技术解决了三维视点和形状分解引起的模糊性 这两项创新使脸谱小组能够获得比传统方法更好的统计模型

    这种重构最初无法实现,主要是由于以前基于矩阵分解的方法存在存储限制。 与脸谱网的深层网络不同,该方法不能在“小批量”状态下运行 以往的方法通过使用多幅同步图像并建立瞬时三维重建之间的对应关系来解决变形建模问题,这需要在专门的实验室中专门开发硬件 C3DPO带来的高效率使得无需使用硬件进行3D捕获就可以实现3D重建。

    相关论文:C3DPO完整论文

    3。从图像采集

    脸谱学习像素到表面映射的系统学习了参数化卷积神经网络(CNN),该网络以图像为输入,预测每个像素的正准表面映射,可以解释模板形状的相应位置点 2D图像和3D形状之间的正准表面映射的相似着色暗示了相应的关系。

    脸谱网进一步降低了开发通用对象类别的3D理解所需的监督程度 他们介绍了一种通过近似自动的实例分割来利用未注释图像集的方法。 脸书没有明确预测图像的基本3D结构,而是解决了将图像像素映射到3D形状类别模板表面的补充任务

    这种映射不仅允许团队在3D形状类别的上下文中理解图像,还可以归纳出相同类别的对象之间的对应关系 例如,脸谱网可以很容易地为你在左图像中看到的突出显示的鸟嘴在右图像中找到相应的点。

    这是可以实现的,因为脸谱可以直观地理解实例之间常见的三维结构 将图像像素映射到正准3D表面的新方法也将这一功能引入了脸书的学习系统。 当评估方法的每个实例之间对应的准确性时,结果比原始的自我监控方法(不使用任务的底层3D结构)高两倍

    脸书的主要观点是,像素到3D表面的映射可以与反向操作(从3D到像素)配对来完成一个周期 脸书团队的新颖方法可以实现这个目标,并且可以使用检测方法的近似分割和非注释的、免费的和公开可用的图像集进行学习。 脸书的系统可以直接使用,并与其他自上而下的3D预测方法相结合,以提供对像素级3D的额外理解。 相关代码已被管理到GitHub

    如视频中汽车颜色一致性所表明,Facebook的系统为运动和旋转对象产生了不变的像素嵌入。这种一致性超出了特定的实例,并且在需要理解对象之间共性的情况下十分有用。

    Facebook不是直接学习两个图像之间的2D到2D对应关系,而是学习2D到3D对应关系,并确保与3D到2D重投影的一致性。这种一致循环可用作学习2D到3D对应关系的监督信号。

    例如,如果要训练系统学习椅子就座的正确位置或茶杯握持的正确位置,当系统下次需要理解如何就座另一张椅子或如何握持另一个茶杯时,这种表示就十分有用。这种任务不仅可以帮助你加深对传统2D图像与视频内容的理解,同时可以通过转移对象表示来增强AR/VR体验。

    相关论文:正准表面映射论文

    4. 提升当前3D系统的对象检测基础

    随着自动代理和3D空间扫描系统等尖端技术的不断发展,我们需要推动对象检测机制的进步。在这些情况下,3D场景理解系统需要知道场景中存在什么对象以及它们的位置,从而支持诸如导航之类的高级任务。Facebook通过VoteNet改进了现有系统。VoteNet是为点云量身定制的高精确端到端3D对象检测网络,而它同时获得了ICCV 2019大会的最佳论文提名。与传统系统不同,VoteNet依赖于2D图像信号,而这是首批完全基于3D点云的系统之一。与以前的研究相比,这种方法效率更高,识别精度更高。

    Facebook的模型已经开源。据介绍,NoteNet实现了最先进的3D检测,其性能比原来所有的3D对象检测方法都要优秀,比SUN RGB-D和ScanNet中至少增加了3.7和18.4 mAP(平均精度)。VoteNet仅使用几何信息,不依赖标准的彩色图像,其性能优于以前的方法。

    VoteNet具有简单的设计,紧凑的模型尺寸,能够实现高效率,全场景的速度约为100毫秒,而且内存占用空间较小。Facebook的算法从深度摄像头获取3D点云,并返回对象的3D边界框,包含语义类。

    VoteNet架构的示例图

    Facebook提出了受经典Hough投票算法启发的投票机制。使用这种方法,Facebook的系统能够生成位于对象中心附近的新点,然后可以将它们进行分组和汇总。利用投票(由深度神经网络进行学习)的基本概念,可以将一组3D种子点投票给对象中心,从而恢复它们的位置和状态。

    从自动驾驶汽车到生物医学,随着3D扫描仪的使用情况正在日益增多,通过对3D场景的对象进行定位和分类来实现对3D内容的语义理解非常重要。通过为2D摄像头补充更先进的深度摄像头传感器以进行3D识别,Facebook团队能够捕获任何给定场景的强大视图。借助VoteNet,系统可以更好地识别场景中的主要对象,并支持诸如放置虚拟对象,导航或LiveMap构建等任务。

    5. 开发对真实世界有着进一步理解的系统

    3D计算机视觉存在大量的开放性研究问题,而Facebook正在尝试通过多种问题假设,技术和监督方法来推动所述领域的进步。随着数字世界的不断发展,3D照片和AR和VR体验等新型产品的兴起,我们需要不断开发出更为智能的系统来更准确理解视觉场景中的对象,并支持与其交互。

    这是Facebook AI团队的长期愿景,亦即开发出一个能如同人类般理解世界并与之交互的AI系统。他们表示:“我们一直在致力于缩小物理空间与虚拟空间之间的差距,并实现各个方面的科学突破。我们以3D为重点的最新研究同时可以帮助改善和更好地补充Facebook AI仿真平台中的3D对象推动我们应对在现实世界中进行实验所面临的复杂挑战一样,3D研究对于训练系统如何理解对象的所有视点(即使被遮挡或其他光学挑战)同样很重要。”

    Facebook团队最后指出:“当结合诸如触觉感知和自然语言理解等技术时,诸如虚拟助手这样的AI系统可以以更加无缝和有用的方式运行。总而言之,对于我们要构建出能够如同人类般理解三个维度的AI系统,这种前沿研究正在帮助我们朝目标不断迈进。”

    原文链接:

    资阳新闻网 版权所有© www.princesdrawingschool.org 技术支持:资阳新闻网 | 网站地图