计算机视觉创企Roboflow:自动驾驶汽车训练语料库遗漏关键数据

时间:2020-02-19

来源:中国无人驾驶网

0

导语:计算机视觉创企Roboflow:自动驾驶汽车训练语料库遗漏关键数据

机器学习模型的性能取决于其训练的数据集的质量,而在自动驾驶领域,让此种性能不会受到失误的影响是至关重要的。据外媒报道,计算机视觉初创公司Roboflow发布了一份报告,据该公司创始人Brad Dwyer所说,用于训练自动驾驶汽车模型的语料库确实遗漏了关键数据。

 

计算机视觉创企Roboflow:自动驾驶汽车训练语料库遗漏关键数据

Dwyer表示,Udacity数据集2包含1.5万张白天在山景城和附近城市开车时拍摄的照片,其中就遗漏了关键数据。在大约5000个样本中,有数千辆未标记的车辆,数百名未标记的行人以及数十名未标记的骑自行车的车,占总数的33%(而217个样本中根本都没有任何注释,此类样本涵盖了汽车、卡车、路灯或行人)。更糟糕的是,还有“幻觉”注释以及除了“严重”加大的边界框(边界框指代感兴趣的对象),还有重复注释的边界框。

考虑到标签是让人工智能(AI)系统理解模式的含义(如有人走到了汽车前面),并基于此类知识评估未来事件,上述现象是很有问题的。错误标记或未标记的物体可能会导致准确性低、决策糟糕,从而为自动驾驶汽车带来灾难。

 

AI很容易因为数据集不完整或不正确导致偏差,这很好理解。例如,单词嵌入(word embedding)是一种常见的算法训练技术,需要将单词与向量连接起来的,不可避免地会捕捉到源文本和对话中隐含的偏见内容,在最糟糕的情况下,此种偏见还会被放大。此外,相比于白人,很多面部识别系统错误识别有色人种的次数更多,而且谷歌图片(Google Photos)曾经将深肤色的人识别为“大猩猩。”

 

但是,如果将表现不佳的AI用于汽车,就会造成更大的伤害。目前,还没有自动驾驶汽车引发碰撞事故的记录,但是目前公共道路上的自动驾驶汽车数量很少。不过,这种情况很可能会改变,根据市场营销公司ABI的数据,到2025年,将有多达800万辆无人驾驶汽车上路;而Research and Markets公司预计,到2030年,美国将有大约2000万辆无人驾驶汽车投入使用。

如果数百万的汽车运行的是有缺陷的AI模型,带来的影响可能是毁灭性的,会让公众更加不信任无人驾驶汽车。有两项研究 – 一项由布鲁金斯学会(Brookings Institution)和一项由高速公路与汽车安全倡议者(AHAS)表示,大多数美国人并不相信无人驾驶汽车的安全性。在布鲁金斯学会进行的调查中,超过60%的受访者表示,倾向于不乘坐自动驾驶汽车;而在AHAS的调查中,近70%的受访者对于与自动驾驶汽车共享道路表示了担忧。

解决数据集问题的方法可能在于更好地进行标记。根据Udacity数据集2的GitHub页面所说,众包语料库注释公司Autti结合使用机器学习与人工监工的方式来处理标记,目前尚不清楚是否此种方法导致了上述错误,不过严格的验证程序可能有助于发现上述错误。

低速无人驾驶产业综合服务平台版权与免责声明:

凡本网注明[来源:低速无人驾驶产业综合服务平台]的所有文字、图片、音视和视频文件,版权均为低速无人驾驶产业综合服务平台独家所有。如需转载请与0755-85260609联系。任何媒体、网站或个人转载使用时须注明来源“低速无人驾驶产业综合服务平台”,违反者本网将追究其法律责任。

本网转载并注明其他来源的稿件,均来自互联网或业内投稿人士,版权属于原版权人。转载请保留稿件来源及作者,禁止擅自篡改,违者自负版权法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

关注低速无人驾驶产业联盟公众号获取更多资讯

最新新闻