追觅电视重磅硅谷成功发布变形电视+ Soundbar within刷新视听体验

发布时间：2026/04/29

4月27日至30日，追觅科技在美国旧金山成功举办“DREAME NEXT”硅谷全球发布会。为期四天的发布汇聚了全球媒体与科技从业者，成为近年来中国品牌在硅谷最具规模的发布事件之一。在本次发布会上，追觅电视正式面向北...
脱发难题有新招：振东制药达霏欣推出“内服外治”方案，助力毛囊新生

发布时间：2025/07/24

近年来，随着生活压力加剧、作息不规律及环境因素影响，脱发、白发问题呈现年轻化趋势，成为困扰现代人的普遍健康难题。面对庞大的市场需求，传统单一治疗手段逐渐显露出局限性。近日，专注毛发健康领域22年的达...
“大健康”中医药技术壁垒下，振东制药靠“一问一答”成功破局

发布时间：2025/06/26

6月17日，中国药理学会党委书记杜冠华率专家团队赴振东制药开展专项技术对接，全国学会服务地方产业发展项目正式启动。此次会议聚焦中药现代化研发重难点，诚邀全国中医药专家共同讨论“大健康”新时代背景下传统药...
振东出题，专家解题：“大健康”背景下，振东制药率先“破冰”！

发布时间：2025/06/25

6月17日，全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导，振东制药协办，研发总裁游蓉丽主持。旨在通过嫁接全国学会的学术资源助力山西地区药企实现技术升级，推动当地中医药企业集群全面...

“酷”大脑研究的扭曲观念扼杀了心理治疗

发布时间：2020/03/31

‘对于人类的每一个问题，总是存在着众所周知的解决方案-简洁，合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且，不乏任何试图探究其深度的简洁，合理和错误的答案。在我职业生...
SpaceX赢得NASA合同，使用新型Dragon XL工艺将货物运送到月球网关

发布时间：2020/03/31

美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船，用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本，将作为第一批从NASA获得...
Spaces应用程序使人们可以参加VR中的Zoom会议

发布时间：2020/03/30

一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。该应用是根据最近发生的COVID-19大流行而开发的，该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...
汇盈医疗声称其AI可以从CT扫描中检测冠状病毒，准确率达96%

发布时间：2020/03/30

总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案，该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言，如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法)，...

微软的人工智能学会从图像文本对中回答有关场景的问题

发布时间：2019/10/10 科技 浏览次数：966

没有详细的随附注释，机器很难理解场景和语言。不幸的是，标记通常是耗时且昂贵的，甚至最好的标记也只能传达对场景的理解，而不能传达对语言的理解。
为了解决该问题，微软研究人员构想了一种AI系统，该系统以模仿人类增进对世界了解的方式来训练图像-文本对。他们说，他们的单模型编码器/解码器视觉语言预训练(VLP)模型既可以生成图像描述，又可以回答有关场景的自然语言问题，为将来可能达到人类同等水平的框架奠定了基础。
GitHub上提供了使用三百万个图像-文本对进行预训练的模型。
“对周围世界的感知是我们人类从小就开始学习的一种技能……我们与身体环境的互动越多……我们越能更好地理解和使用语言来解释存在的事物和事物微软高级研究员Hamid Palangi在博客中写道。 “另一方面，对于机器，场景理解和语言理解很难磨练，尤其是在监督薄弱的情况下，本质上，间接学习的人能够很好地利用它。”
正如Palangi及其同事所解释的那样，图像字幕和视觉问答质量算法通常表现不佳，原因有以下三个：(1)他们无法利用上下文描述图像并进行推理; (2)他们没有利用大规模的训练数据进行预训练; (3)他们的架构在设计语言，视觉对齐和语言生成任务时表现不佳。该团队试图通过包含编码器(可学习给定数据的数字表示形式)和解码器(将编码器的表示形式转换为人类可解释的信息)的架构进行预训练，并针对两种预测进行了优化，从而克服了这些架构。他们说，它最终创建了更好地对齐的编码器和解码器表示形式，使他们可以针对图像字幕和视觉问题回答等不同的目标使用相同的模型。
研究人员评估了VLP在公开基准(包括COCO，Flickr30K和VQA 2.0)上对图片进行字幕和推理的能力。他们报告说，它不仅在几个图像标题和视觉问题回答指标方面优于最新模型，而且还设法回答了与先前模型有关的图像问题(例如与服装设计相似的图像)。仅接受过语言方面的培训。
“通过智能模型设计和智能数据选择，我们可以利用现有的公共可用资源，以达到更高的语言和场景理解水平，如VLP所证明的那样，” Palangi写道。 “我们相信，借助VLP，我们可以展示出统一模型的潜力，可以达到成功完成各种不同的下游任务所需的语言和场景理解水平-单个模型可以在不牺牲性能的情况下有效完成多个任务。这意味着更有效，更强大的视觉语言系统，而无需花费多个单独训练的模型来达到相同的目标。”
该团队将在将来的工作中加强模型的架构，同时在预训练期间添加更多数据。

上一篇: 亚马逊推出面向儿童的新款Kindle电子阅读器并更新Fire HD 10平板电脑

下一篇: 谷歌使在扬声器和屏幕之间移动音乐和视频变得更加容易

相关推荐