24小时联系电话:185 8888 888

商业
您现在的位置: 首页 > 商业 > Facebook的AI从第一人称视频素材中了解物理位置之间的关系
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

Facebook的AI从第一人称视频素材中了解物理位置之间的关系

发布时间:2020/01/24 商业 浏览次数:649

 
计算机视觉系统通常擅长检测物体,但难以理解使用这些物体的环境。那是因为它们将观察到的动作与物理环境分开了,即使是那些建模环境的动作也无法区分与动作相关的元素与不与动作相关的元素(例如柜台上的砧板与地板上的随机拼块)。
这就是为什么来自德克萨斯大学和Facebook AI Research的一组研究人员在论文Ego-Topo中进行了研究的一种方法,该技术将视频中捕获的空间分解为活动的拓扑图,然后将视频组织成一系列对不同对象的访问区域。他们断言,通过将场景重组为这些“访问”而不是一系列镜头,Ego-Topo能够推理第一人称行为(例如,一个人将来最可能采取的行动是什么?),环境本身(例如,即使尚未在特定区域中观察到,在特定区域中可能发生的物体交互作用是什么?)。
“我们的[模型]比上面讨论的现有模型更具优势… [t]提供了过去的简洁,空间结构化表示,[与’纯3D’方法不同,我们的地图是通过人们对空间的利用。”
Ego-Topo利用AI模型从活跃使用空间的人的视频中发现常去的地方,并基于(1)他们共享的物理空间和(2)区域提供的功能,跨时间链接帧物理位置。 (例如,在视频开头加载的洗碗机在卸载时可能会链接到同一个洗碗机,而一个厨房中的垃圾桶可以链接到另一个厨房中的垃圾处理。)一组单独的模型利用结果图得出在长视频中发现环境能力并预测未来的行动。
跨多个区域的链接空间(例如,来自多个厨房的视频)有助于对环境及其功能目的进行综合表示,从而使Ego-Topo可以确定环境中的哪些部分与人类行为有关,以及在环境中的行为如何区域实现某些目标。例如,给定一个厨房,即使不是每个视频都访问了厨房的所有部分,Ego-Top仍可以跨不同的视频进行链接,以创建一个合并的厨房地图,说明持久的物理空间。此外,它还可以链接多个厨房之间的区域,以创建合并的地图,从而揭示不同厨房之间的相互关系。
在实验中,该团队向Ego-Topo展示了两项关键任务:以新颖的视角推断可能的对象交互,并预测完成长期活动所需的动作。为了评估其性能,他们在EGTEA Gaze +(该视频包含32个主题的视频,这些视频遵循一个厨房中的7个食谱,每个都捕获了准备好的完整菜品)和EPIC-kitchens(其中包括日常厨房活动的视频)进行了培训。并且不仅限于单个食谱或对象),而且可以跨多个厨房收集。
他们报告说,与基线相比,Ego-Topo在所有预测范围内的表现均较好,并且在预测未来的行动方面表现出色。此外,他们说,将动作链接到模型的拓扑图中的发现区域可带来一致的改进,基于合并图中的功能对齐空间也是如此-尤其是对于仅绑定到单个位置的稀有类。
“我们的方法最适合[第一人称]视频中的长期活动,在该活动中,区域会随着时间的推移反复访问并以多种方式使用。该定义广泛适用于常见的家庭和工作环境(例如办公室,厨房,零售商店,杂货店)。”研究人员写道。 “这些任务说明了可以成功推理场景功能的视觉系统如何有助于增强现实(AR)和机器人技术的应用。例如,一个知道环境中可能发生动作的AR系统可以交互式地指导一个人来完成一个教程。一个能够从视频中学习人们如何使用区域的移动机器人将无需进行广泛的探索就可以采取行动。”