物体识别数据集颠覆了世界上最好的计算机视觉模型

ObjectNet是由MIT和IBM研究人员创建的照片数据集，它以不同的角度显示对象，并具有不同的背景，以更好地表示3D对象的复杂性。研究人员希望数据集能够带来在现实生活中表现更好的新计算机视觉技术。

图片来源：麻省理工学院

计算机视觉模型已经学会了准确地识别照片中的对象，从而使某些对象在某些数据集上的表现优于人类。但是，当那些相同的物体检测器在现实世界中变得松懈时，它们的性能会明显下降，这会给自动驾驶汽车和其他使用机器视觉的对安全至关重要的系统带来可靠性方面的担忧。

为了弥合这种性能差距，麻省理工学院和IBM研究人员组成的团队着手创建一种非常不同的对象识别数据集。它被称为ObjectNet，是ImageNet上的一部戏，ImageNet是众包的照片数据库，负责引发现代人工智能的繁荣。

与ImageNet具有从Flickr和其他社交媒体网站拍摄的照片不同，ObjectNet具有由付费自由职业者拍摄的照片。显示的对象是侧面倾斜的，以奇数角度拍摄，并显示在杂乱的房间中。当在ObjectNet上测试领先的对象检测模型时，其准确率从ImageNet上的97%的高位下降到50-55%。

麻省理工学院计算机科学与人工智能实验室(CSAIL)和脑，脑与机器中心(CBMM)的研究科学家鲍里斯·卡茨(Boris Katz)说：“我们创建了这个数据集来告诉人们对象识别问题仍然是一个难题。” 。“我们需要更好，更智能的算法。” Katz和他的同事将在神经信息处理系统会议(NeurIPS)上介绍ObjectNet及其结果。

深度学习是推动AI最新发展的技术，它使用人工“神经元”层在大量原始数据中查找模式。在训练了数百至数千个示例之后，它学会在照片中挑选椅子。但是，即使具有数百万个图像的数据集也无法以每个可能的方向和设置显示每个对象，这在模型在现实生活中遇到这些对象时也会造成问题。

ObjectNet在另一个重要方面与常规图像数据集不同：它不包含训练图像。大多数数据集都分为用于训练模型和测试其性能的数据。但是训练集通常与测试集有着细微的相似之处，实际上使模型在测试时达到了潜行高峰。

乍看之下，拥有 1400万张图像的ImageNet看起来是巨大的。但是，如果不包括训练集，则其大小可与ObjectNet媲美(50,000张照片)。

研究合著者CSAIL和CBMM的研究作者Andrei Barbu说：“如果我们想知道算法在现实世界中的表现如何，我们应该在无偏见且从未见过的图像上对其进行测试。” 。

试图捕获现实世界对象的复杂性的数据集

很少有人会考虑与他们的朋友分享ObjectNet的照片，这就是重点。研究人员从Amazon Mechanical Turk聘请了自由职业者，为数百张随机摆放的家用物品拍照。工人们在应用程序上收到了照片分配，并带有动画说明，告诉他们如何定向分配的对象，从哪个角度拍摄以及是否将对象摆放在厨房，浴室，卧室或客厅中。

他们希望消除三个常见的偏见：正面朝上，在标志性位置和高度相关的设置中显示的对象，例如厨房中堆叠的盘子。

花费了三年的时间来构思数据集并设计一个可标准化数据收集过程的应用程序。研究合著者，麻省理工学院电气工程和计算机科学系研究生David Mayo说：“发现如何以控制各种偏差的方式收集数据是非常棘手的。” “我们还必须进行实验，以确保我们的指示清晰明了，并确保工人确切知道他们的要求。”

又花了一年的时间收集实际数据，最后，由于不符合研究人员的要求，所有自由职业者提交的照片中有一半被丢弃了。为了提供帮助，一些工人在他们的物体上添加了标签，将它们放在白色背景上，或者试图改善分配给他们拍摄的照片的美观性。

许多照片是在美国以外拍摄的，因此，有些物体可能看起来很陌生。成熟的橘子是绿色的，香蕉的大小不同，衣服的形状和质地也各不相同。

Object Net与ImageNet：领先的对象识别模型的比较

当研究人员在ObjectNet上测试最新的计算机视觉模型时，他们发现ImageNet的性能下降了40-45个百分点。研究人员说，结果表明，物体检测器仍然难以理解物体是三维的并且可以旋转并移动到新的环境中。研究合著者，IBM研究人员Dan Gutfreund说：“这些概念并未内置在现代物体检测器的体系结构中。”

为了证明ObjectNet很难精确地归因于如何查看和定位对象，研究人员允许模型训练ObjectNet数据的一半，然后再对其余一半进行测试。在同一数据集上进行训练和测试通常可以提高性能，但此处的模型仅稍有改善，这表明对象检测器尚未完全理解现实世界中对象的存在方式。

自2012年以来，计算机视觉模型已逐步得到改善，当时称为AlexNet的物体检测器在年度ImageNet竞赛中击败了比赛。随着数据集变得越来越大，性能也得到了提高。

但是研究人员警告说，设计更大版本的ObjectNet并增加视角和方向并不一定会带来更好的结果。ObjectNet的目的是激励研究人员提出下一波革命性技术，就像ImageNet挑战最初的启动一样。

卡兹说：“人们为这些探测器提供了大量数据，但是回报却在减少。” “您不能从任何角度和每种情况下查看一个对象。我们希望这个新的数据集将产生强大的计算机视觉，而不会在现实世界中造成令人惊讶的故障。”

注：本文编译自外网

【特别提醒】如您不希望作品出现在本站，可联系我们要求撤下您的作品。邮箱 biz@minimouse.com.cn

从“三线精神”到“数字未来”，这家企业用十足匠心铸就	创新学者精神透视领导力的本源与未来
暖“新”送检健康护航昆明高新区总工	“点亮乡村幸福路，接力万企帮万村” 启动活动
打造具有全国影响力的中试产业高地！佛山召开中试产业高	一线调研解难题走心走实促发展
高新区规划建设局开展辖区重点企业水路货运运输需求调	高新公安分局治安大队组织召开辖区旅馆业治安管理工作
昆明高新区组织开展2023年数字化办公（进阶班）培训	助企纾困解难题政企共商促发展 ——营商办开