24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > Google更新了Open Images,以帮助改善应用程序界面设计
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

Google更新了Open Images,以帮助改善应用程序界面设计

发布时间:2020/02/27 科技 浏览次数:711

 
如今,用于计算机视觉任务的Google Open Images语料库有了新的视觉关系,人类动作注释和图像级别标签,以及一种称为局部化叙事的新型多模式注释,其功能得到了增强。谷歌表示,这最后的增加可以为研究人们如何描述图像创造“潜在的研究途径”,这可以导致跨Web,台式机和移动应用的界面设计见解(以及后续改进)。
2016年,Google推出了Open Images,这是一个包含数以千计的对象类别的数百万个带有标签图像的数据集。重大更新于2018年和2019年到来,带来了1,540万个用于600个对象类别的边界框以及用于350个类别中的280万个对象实例的分割蒙版(标记对象轮廓)。
“除了数据集本身,相关的开放图像挑战还激发了对象检测,实例分割和视觉关系检测方面的最新进展,” Google Research的研究科学家Jordi Pont-Tuset写道。 “ Open Images在许多方面都是最大的带注释的图像数据集,可用于训练用于计算机视觉任务的最新深层卷积神经网络。”
正如Pont-Tuset所解释的那样,本地化叙事的动机之一是利用视觉与语言之间的联系,这通常是通过图像字幕(即图像与内容的书面描述配对)来实现的。但是图像字幕缺少视觉上的“基础”。为了减轻这种情况,一些研究人员在事实之后为标题中的名词绘制了边界框,这与本地化叙述相反,在本地化叙述中,说明中的每个单词都基于文本。
打开图像本地化
“打开图像”中的本地化叙述是由注释者生成的,这些注释者提供了图像的口头描述,同时将它们悬停在用计算机鼠标描述的区域上。注释者手动转录他们的描述,然后Google研究人员将其与自动语音转录对齐,以确保语音,文本和鼠标轨迹正确且同步。
“同时讲话和指向非常直观,这使我们能够为注释者提供关于任务的非常模糊的说明,” Pont-Tuset解释说。 “ [Open Images的最新版本是朝着改善图像分类,对象检测,视觉关系检测和实例分割的统一注释迈出的重要的定性和定量步骤……[我们]希望[它]能够进一步刺激实现真正的注释。现场了解。”
免费提供开放图像。根据Google的说法,Open Images现在有900万张图像,其中包含3600万个图像级标签,1580万个边界框,280万个实例分割,391000个视觉关系以及近20000个类别中的5990万幅经过人类验证的图像级标签。