首页 > 科技

隐藏在人工智能领域里的劳动密集型产业——数据标注

作者: 来源:wbtt 2019-08-24 11:54:40

​​ 来源:BIEI北京市电子科技情报研究所2019年是人工智能的关键年份。今年,人工智能不再仅仅是一个流行词,而是已逐渐变成一大根深蒂固的趋势...

​​

来源:BIEI北京市电子科技情报研究所

2019年是人工智能的关键年份。今年,人工智能不再仅仅是一个流行词,而是已逐渐变成一大根深蒂固的趋势,正在走向主流并进入产业化阶段。有研究机构预测,2019年人工智能赋能实体经济产业规模接近570亿元。


提到人工智能,大家可能会联想到那些高深莫测的技术,例如计算机视觉、智能语音识别、自然语言处理、知识图谱、机器学习等技术。除了这些技术,大家可能还会联想到很多应用,例如无人驾驶、智慧医疗、智能制造、智慧农业等。无论如何,我们似乎很难将人工智能这个自带高科技光环的领域跟密集的劳动力联系在一起。而事实上,人工智能领域里确实隐藏了一个劳动密集型产业——数据标注。

格灵深瞳和英特尔提出,算法、数据和计算是人工智能时代前进的三驾马车,也是其核心驱动力和生产力。算法和计算作为人工智能的核心驱动力并不难理解,为什么数据会成为核心驱动力之一?业界有这样一种说法,与其说是人工智能,不如说是数据智能,人工智能其实就是用大量的数据作导向,让需要机器来做判别的问题最终转化为数据问题。这就是今天我们所说的人工智能的本质。现代的人工智能进化,不仅需要理论研究,还需要大量的数据作为原料。


但是,海量数据并不等同于可以供机器学习的训练数据,高质量的训练数据需要经过数据清洗和数据标注。数据清洗比较容易理解,即在进行数据标注之前,首先要对数据进行清洗,得到符合某些要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等。



何谓数据标注?


数据标注的工作内容是对各种类型的数据包括文本、图片、语音、视频等完成分类、标框、注释、标记并打上说明其某种属性的标签。常见的数据标注分为以下几类:

表1:数据标注分类表(部分)


谁来完成数据标注?


有机器,也有人工。例如Google、Microsoft 等互联网公司相继推出了自动标注系统,可以利用计算机来完成对部分数据的标注。


在我国,数据标注工作基本上是由人工来实现,这就形成基于密集劳动力的人工智能数据标注产业。目前,我国的数据标注工厂多集中在河北、河南、山东、山西等地区。因为这些地区可以提供廉价的劳动力,即数据标注员。数据标注几乎没有任何技术门槛,因此,数据标注产业为我国部分地区的小城镇和农村提供了大量就业机会。


美国AI研究机构Cognilytica预计,截止2018年,全球数据标注相关产业的产值将增长66%达到5亿美元,2023年产值更将翻一番。但数据标注注定只是一个暂时性的产业,一旦人工智能技术发展到足以代替人工实现自动精准识别的时候,数据标注行业也就成了明日黄花。​​​​

上一篇 下一篇

I 热点 / Hot