第九届中国-中东欧国家经贸论坛开幕 旷视代表中国AI企业出席并作交流发言 | 旷视发布全球最大的物体检测数据集 构建高质量AI训练资源库 | 易快报与赛意信息达成战略合作,促进企业信息化多元化发展 | 小满科技亮相第125届广交会,全球合作伙伴招募计划发布 | 章鱼回收绽放中国环博会 “互联网+”破解垃圾分类回收难点 | FESCO Anhui选择易快报 更好领跑中国人力资源服务行 | Nutanix为企业推出云原生解决方案 | “耀星计划”助力应用创新 最新认证应用名单出炉 | 推动原创技术发展 中国增强现实核心技术产业联盟启动会员招募 | 叱咤“上海滩”后,冠军哈弗还要做全球SUV“老大” |
 
当前位置: 新闻>滚动>

旷视发布全球最大的物体检测数据集 构建高质量AI训练资源库

发布时间:2019-04-19 09:55:19  |  来源:北国网  |  作者:   |  责任编辑:科学频道

现阶段,缺乏高质量的数据集已经成为制约人工智能领域发展的瓶颈之一,如何构建人工智能数据集已成为各国政府和产业界关注的焦点。其中,美国就将构建行业资源数据集定位为产业界不可能解决需政府层面推动的难题。英国也将提高数据获取性和行业数据访问的便利性列为未来提升英国人工智能能力的首要任务。

我国亦将缺少有效的训练资源库列为影响人工智能发展的痛点问题之一,工信部此前发布的《促进新一代人工智能产业发展三年行动计划》更是明确提出,支持建设面向语音识别、视觉识别、自然语言处理等基础领域及工业、医疗、金融、交通等行业领域的高质量人工智能训练资源库、标准测试数据集并推动共享。在此背景下,旷视研究院在日前举办的“智源学者计划启动暨联合实验室发布会”上,发布了全球最大的物体检测数据集——旷视Objects365。

图:旷视首席科学家兼研究院院长孙剑介绍旷视Objects365

据旷视首席科学家兼研究院院长孙剑介绍,旷视Objects365是新一代通用物体检测数据集,具有规模大、质量高、泛化能力强的特点。在规模方面,旷视Objects365定义了生活中常见的365个类别,第一批将开放63万张图像,拥有高达1000万的标注框(每张图像的平均标注框为 15.8个),而这个数量级分别是目前全球最权威的物体检测数据集——MS COCO的5倍和11倍。

图:旷视Objects365与大型经典数据集的基本对比

同时,在研究过程中,由于算法优化的上限严重依赖于基准数据集的质量,因此旷视研究院在打造旷视Objects365时设计了一套标注流程,通过标注员严格的资质审核,以及对目标物体严谨、科学的分类保证每一张图片的标注质量。

此外,作为一个优秀的预训练数据集,旷视Objects365预训练模型在使用过程中,可以轻松超越现有算法的精度,显著加速收敛过程,表现出极强的泛化能力。在执行COCO、VOO Det、CityPersons等检测任务时,在VOC Seg和ADE等分割任务上均有显著提升。

相较于算法,高质量的数据能对深度学习带来更大的提升,对计算机视觉模型的训练产生更大影响,因而数据共享是集结全行业之力推动计算机视觉发展的关键之举。基于此,旷视Objects365数据集的发布,将推动通用物体检测技术的发展,为中国人工智能计算机视觉技术的发展与应用注入新活力和新动力。而且,无论从数据规模再到标注质量,旷视Objects365皆为计算机视觉基础技术通用物体检测树立了新的里程碑。

在未来,旷视还将进一步推动数据集的构建。据孙剑透露:“虽然旷视Objects365已是目前世界上最大的物体检测数据集,但我们的目标是在未来3年内将这个数据集从现在的60万,扩大到200万图,超过2000多万框,进一步扩大这个数据集。”