24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > Roboflow:流行的自动驾驶汽车数据集包含严重缺陷
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

Roboflow:流行的自动驾驶汽车数据集包含严重缺陷

发布时间:2020/02/17 科技 浏览次数:878

 
机器学习模型的性能仅与它所训练的数据集的质量一样好,并且在自动驾驶汽车领域,至关重要的是,这种性能不会受到错误的不利影响。来自计算机视觉初创公司Roboflow的一份令人不安的报告声称确实发生了这种情况-根据创始人Brad Dwyer的说法,用于训练自动驾驶汽车模型的语料库中省略了关键数据。
Dwyer写道,Udacity Dataset 2包含遗漏,其中包含15,000张在白天在山景城和附近城市行驶时捕获的图像。大约5,000个样本中有成千上万个未贴标签的车辆,数百个未贴标签的行人和数十个未贴标签的骑车人,占33​​%(完全没有任何注释的217,但实际上包含汽车,卡车,路灯或行人)。更糟糕的是,除了“严重”过大的边界框之外,还存在幻影注释和重复的边界框(其中“边界框”是指感兴趣的对象)的情况。
考虑到标签是允许AI系统理解模式的含义(例如当人走在汽车前面时)并基于该知识评估未来事件的问题,这是有问题的。贴错标签或未贴标签的物品可能会导致准确性降低和错误的决策制定,这在自动驾驶汽车中可能是灾难的根源。
Dwyer写道:“开源数据集很棒,但是如果公众要以其安全性来信任我们的社区,我们需要做得更好,以确保我们共享的数据是完整且准确的。”他指出,成千上万的学生在Udacity的自动驾驶工程课程中,请结合使用Udacity Dataset 2和开源的自动驾驶汽车项目。 “如果您在项目中使用公共数据集,请进行尽职调查并检查其完整性,然后再进行野外使用。”
众所周知,AI容易因数据集不完整或偏斜而产生偏见。例如,词嵌入是一种常见的算法训练技术,涉及将词链接到向量,不可避免地会拾取(最糟糕的是放大)源文本和对话中隐含的偏见。与白人相比,许多面部识别系统更容易误识别有色人种。 Google相册曾经臭名昭著地将肤色较黑的人的照片标记为“大猩猩”。
但是,表现不佳的AI如果被抛在车后,可能会造成更大的伤害。尚无自动驾驶汽车发生碰撞的案例记录,但它们仅在少数情况下出现在公共道路上。这很可能会改变-根据营销公司ABI的数据,到2025年,将有多达800万辆无人驾驶汽车上路。Researchand Markets预计,到2030年,美国将有约2000万辆无人驾驶汽车投入运营。
如果数百万辆汽车运行有缺陷的AI模型,其影响可能是毁灭性的,这将使已经警惕无人驾驶汽车的公众更加怀疑。两项研究(一项由布鲁金斯学会(Brookings Institution)发表,另一项由高速公路与汽车安全倡导者(AHAS)发表)发现,大多数美国人不相信无人驾驶汽车的安全性。布鲁金斯民意调查中超过60%的受访者表示,他们不愿意骑自动驾驶汽车,而AHAS调查的受访者中有近70%表示担心与他们共享道路。
数据集问题的解决方案可能在于更好的标记实践。根据Udacity Dataset 2的GitHub页面,由众包的语料注释公司Autti通过结合机器学习和人工任务负责人来处理标签。目前尚不清楚这种方法是否会导致错误-我们已联系Autti以获取更多信息-但严格的验证步骤可能有助于突出这些错误。
就其本身而言,Roboflow告诉Sophos的Naked Security,它计划使用原始数据集和该公司的数据集的固定版本(已在开放源代码中提供)进行实验,以查看问题的严重程度。用于训练各种模型架构。 “我在其他领域(例如医学,动物,游戏)中查看的数据集质量特别差,” Dwyer告诉出版物。 “我希望实际上正在路上行驶的大公司对数据标签,清洁和验证过程的要求更加严格。”