追觅电视重磅硅谷成功发布变形电视+ Soundbar within刷新视听体验

发布时间：2026/04/29

4月27日至30日，追觅科技在美国旧金山成功举办“DREAME NEXT”硅谷全球发布会。为期四天的发布汇聚了全球媒体与科技从业者，成为近年来中国品牌在硅谷最具规模的发布事件之一。在本次发布会上，追觅电视正式面向北...
脱发难题有新招：振东制药达霏欣推出“内服外治”方案，助力毛囊新生

发布时间：2025/07/24

近年来，随着生活压力加剧、作息不规律及环境因素影响，脱发、白发问题呈现年轻化趋势，成为困扰现代人的普遍健康难题。面对庞大的市场需求，传统单一治疗手段逐渐显露出局限性。近日，专注毛发健康领域22年的达...
“大健康”中医药技术壁垒下，振东制药靠“一问一答”成功破局

发布时间：2025/06/26

6月17日，中国药理学会党委书记杜冠华率专家团队赴振东制药开展专项技术对接，全国学会服务地方产业发展项目正式启动。此次会议聚焦中药现代化研发重难点，诚邀全国中医药专家共同讨论“大健康”新时代背景下传统药...
振东出题，专家解题：“大健康”背景下，振东制药率先“破冰”！

发布时间：2025/06/25

6月17日，全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导，振东制药协办，研发总裁游蓉丽主持。旨在通过嫁接全国学会的学术资源助力山西地区药企实现技术升级，推动当地中医药企业集群全面...

“酷”大脑研究的扭曲观念扼杀了心理治疗

发布时间：2020/03/31

‘对于人类的每一个问题，总是存在着众所周知的解决方案-简洁，合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且，不乏任何试图探究其深度的简洁，合理和错误的答案。在我职业生...
SpaceX赢得NASA合同，使用新型Dragon XL工艺将货物运送到月球网关

发布时间：2020/03/31

美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船，用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本，将作为第一批从NASA获得...
Spaces应用程序使人们可以参加VR中的Zoom会议

发布时间：2020/03/30

一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。该应用是根据最近发生的COVID-19大流行而开发的，该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...
汇盈医疗声称其AI可以从CT扫描中检测冠状病毒，准确率达96%

发布时间：2020/03/30

总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案，该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言，如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法)，...

Google更新了Open Images，以帮助改善应用程序界面设计

发布时间：2020/02/27 科技 浏览次数：860

如今，用于计算机视觉任务的Google Open Images语料库有了新的视觉关系，人类动作注释和图像级别标签，以及一种称为局部化叙事的新型多模式注释，其功能得到了增强。谷歌表示，这最后的增加可以为研究人们如何描述图像创造“潜在的研究途径”，这可以导致跨Web，台式机和移动应用的界面设计见解(以及后续改进)。
2016年，Google推出了Open Images，这是一个包含数以千计的对象类别的数百万个带有标签图像的数据集。重大更新于2018年和2019年到来，带来了1,540万个用于600个对象类别的边界框以及用于350个类别中的280万个对象实例的分割蒙版(标记对象轮廓)。
“除了数据集本身，相关的开放图像挑战还激发了对象检测，实例分割和视觉关系检测方面的最新进展，” Google Research的研究科学家Jordi Pont-Tuset写道。 “ Open Images在许多方面都是最大的带注释的图像数据集，可用于训练用于计算机视觉任务的最新深层卷积神经网络。”
正如Pont-Tuset所解释的那样，本地化叙事的动机之一是利用视觉与语言之间的联系，这通常是通过图像字幕(即图像与内容的书面描述配对)来实现的。但是图像字幕缺少视觉上的“基础”。为了减轻这种情况，一些研究人员在事实之后为标题中的名词绘制了边界框，这与本地化叙述相反，在本地化叙述中，说明中的每个单词都基于文本。
打开图像本地化
“打开图像”中的本地化叙述是由注释者生成的，这些注释者提供了图像的口头描述，同时将它们悬停在用计算机鼠标描述的区域上。注释者手动转录他们的描述，然后Google研究人员将其与自动语音转录对齐，以确保语音，文本和鼠标轨迹正确且同步。
“同时讲话和指向非常直观，这使我们能够为注释者提供关于任务的非常模糊的说明，” Pont-Tuset解释说。 “ [Open Images的最新版本是朝着改善图像分类，对象检测，视觉关系检测和实例分割的统一注释迈出的重要的定性和定量步骤……[我们]希望[它]能够进一步刺激实现真正的注释。现场了解。”
免费提供开放图像。根据Google的说法，Open Images现在有900万张图像，其中包含3600万个图像级标签，1580万个边界框，280万个实例分割，391000个视觉关系以及近20000个类别中的5990万幅经过人类验证的图像级标签。

上一篇: 研究人员将发展心理学应用于预测对象关系的AI模型

下一篇: 人工智能有助于消除乳腺癌筛查中的辐射

相关推荐