24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > 微软的人工智能学会从图像文本对中回答有关场景的问题
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

微软的人工智能学会从图像文本对中回答有关场景的问题

发布时间:2019/10/10 科技 浏览次数:847

 
没有详细的随附注释,机器很难理解场景和语言。不幸的是,标记通常是耗时且昂贵的,甚至最好的标记也只能传达对场景的理解,而不能传达对语言的理解。
为了解决该问题,微软研究人员构想了一种AI系统,该系统以模仿人类增进对世界了解的方式来训练图像-文本对。他们说,他们的单模型编码器/解码器视觉语言预训练(VLP)模型既可以生成图像描述,又可以回答有关场景的自然语言问题,为将来可能达到人类同等水平的框架奠定了基础。
GitHub上提供了使用三百万个图像-文本对进行预训练的模型。
“对周围世界的感知是我们人类从小就开始学习的一种技能……我们与身体环境的互动越多……我们越能更好地理解和使用语言来解释存在的事物和事物微软高级研究员Hamid Palangi在博客中写道。 “另一方面,对于机器,场景理解和语言理解很难磨练,尤其是在监督薄弱的情况下,本质上,间接学习的人能够很好地利用它。”
正如Palangi及其同事所解释的那样,图像字幕和视觉问答质量算法通常表现不佳,原因有以下三个:(1)他们无法利用上下文描述图像并进行推理; (2)他们没有利用大规模的训练数据进行预训练; (3)他们的架构在设计语言,视觉对齐和语言生成任务时表现不佳。该团队试图通过包含编码器(可学习给定数据的数字表示形式)和解码器(将编码器的表示形式转换为人类可解释的信息)的架构进行预训练,并针对两种预测进行了优化,从而克服了这些架构。他们说,它最终创建了更好地对齐的编码器和解码器表示形式,使他们可以针对图像字幕和视觉问题回答等不同的目标使用相同的模型。
研究人员评估了VLP在公开基准(包括COCO,Flickr30K和VQA 2.0)上对图片进行字幕和推理的能力。他们报告说,它不仅在几个图像标题和视觉问题回答指标方面优于最新模型,而且还设法回答了与先前模型有关的图像问题(例如与服装设计相似的图像)。仅接受过语言方面的培训。
“通过智能模型设计和智能数据选择,我们可以利用现有的公共可用资源,以达到更高的语言和场景理解水平,如VLP所证明的那样,” Palangi写道。 “我们相信,借助VLP,我们可以展示出统一模型的潜力,可以达到成功完成各种不同的下游任务所需的语言和场景理解水平-单个模型可以在不牺牲性能的情况下有效完成多个任务。这意味着更有效,更强大的视觉语言系统,而无需花费多个单独训练的模型来达到相同的目标。”
该团队将在将来的工作中加强模型的架构,同时在预训练期间添加更多数据。

姓 名:
邮箱
留 言: