行业新闻

AI 世界的老球(si)迷(ji)是怎样炼成的?谈谈AI数据标注

AI 世界的老球(si)迷(ji)是怎样炼成的?谈谈AI数据标注


当球盲们还忙着分辨「梅东和梅西」、「内马尔和外马尔」,真·球迷们已经能通过一个跑位、一脚抽射远远地辨认出自己喜爱的球星。

当年轻的司机们还在论坛贴吧四处发帖求种子想「借一部说话」,真·老司机们已经能通过一个镜头、一个眼神确认出演员、番号和系列。

这,就是「阅球无数」的力量。


0.jpg

(图源 《FIFA 12》宣传海报)


擦干鼻血,继续看文。

这世上许多道理大抵相通。其实在人工智能领域,「阅球无数」的故事也时常发生。

老球迷的洞察,是一场球一场球的看球经验积累下来的。老司机的敏锐,是一部片一部片积攒下来的。同样,一个图片识别系统能瞬间认出某个物品,一套语音识别系统能瞬间读懂你说的话,其实也一张张图片、一段段语音素材训练出来的结果。

为了给大家讲明白其中的奥秘,我这次撩到了京东众智平台的产品经理“小七”。京东众智是 AI 数据标注行业的一匹新晋黑马。

今天我将和小七一起给大家讲讲 ——AI 世界的老司机是如何被调教出来的。

1

问:如何教会人工智能系统识别一颗足球?

答:像大人教小孩那样。

要教会小孩认识「什么是足球」,如果你试图把「圆形的」、「用脚踢的」、「黑白相间网格的」等等特征一条条告诉孩子,估计还没说完孩子就懵了,而且容易出错。

足球未必就只能用脚踢(比如守门员,比如马拉多纳的上帝之手),也并非只有黑白两色。

0 (18).jpg

最直接,最简单也最常用的办法是,找来一个真的足球摆在小孩面前,指着球告诉他,「足球」、「足球」、「足球」,实在找不到真球,用图片或视频也行。

试过几遍你就会发现,即便从来没告诉过孩子「什么是足球」,过不了多久孩子也能「自然而然」地认出足球。

网上有个段子说「人如果没有梦想,跟深度神经网络有什么区别」。其实小孩认识世界的过程,跟一个深度神经网络的训练过程还真的挺相似。

工程师想让 AI 模型准确识别出足球, 最好的办法也不是用代码来描述足球,而是搭建好深度学习网络模型之后,直接找来很多张带有足球的图片,用 AI 能读取的方式把图片里的足球「标注」出来,扔进 AI 模型训练,之后它「自然而然」就获得了识别足球的能力。

不需要工程师用代码来描述「什么是足球」,甚至工程师也未必需要弄懂为什么 AI 模型能识别足球。

0 (17).jpg

(一颗用紫色标注的球和蓝色标注的背景)


在 AI 领域,这个将原始数据变成算法可用的数据的过程有个专业名词,叫「数据标注」,而找到原始数据的过程也有个专业名词,叫「数据采集」。

小七告诉我,目前数据采集和标注主要分为:视觉类(图片和视频)、语音类、文本类。

其中的逻辑依然可以用大人教小孩的例子来理解:

视觉类—— 用于训练图像识别系统,相当于大人用看图识物课本、用动画片(视频)教小孩认识各种物品类

语音类—— 用于训练语音识别系统,相当于大人教幼儿说话聊天

文本类 —— 用于训练语义理解等系统,相当于大人教小孩识字阅读

一个孩子学习的快慢主要看两件事:「1.孩子的天赋」、「2.强化认知的次数」

一套 AI 系统的强大程度也主要看两件事:「1.算法模型的好坏」、「2.训练数据的数量和质量」

小七说,目前很多人工智能领域的公司使用的算法模型其实大同小异,很多甚至就是用同一个开源项目改的。

也就是说,在「天赋」都差不多的情况下,后期训练所用数据的数量和标注的质量能起到决定性作用。

我忽然想起了那句神烦的广告词:我不是天生强大,我只是天生要强……

2

小七告诉我,目前人工智能领域对于数据采集和标注的需求非常大。

达到什么程度呢?就拿之前在微信群里流传很广的「中国天网监控系统9秒视频」来感受一下:

人来车往的大马路上,监控系统能准确识别出每一个来往的行人和车辆,每个人身上都挂着几个小标签,精准显示出机动车和非机动车的种类,以及行人的年龄、性别、穿着。

0.gif

(网上流传的所谓天眼监控系统)


这套系统的背后是一个数量庞大的数据训练在支撑,虽然视频素材可以直接从监控系统中调用,但免不了大量的后期「数据标注」工作。

单看行人身上的标签就多达四个,人的性别、年龄段、衣着细节,其中每一个特征都需要大量素材来训练才能最终做到精准识别。


0 (1).jpg

小七告诉我,京东众智平台上有类似的路边标注的视频标注实际案例。从下面这张标注截图上来看,粗略统计每张截图就有二十多种标签,行人、骑行人、小型车、大型车、电线杆、广告牌……


0 (19).jpg

(图片取自京东众智AI数据众包平台)


对于一些自动驾驶系统来说,精准识别路面的每个物体是多么重要!

路边随时可能窜出一条小狗、飘来一个垃圾袋、地上出现一团类似人形的污渍……而每一样需要准确识别的物体在前期大多需要大量高质量数据标注过的素材来训练。

并且,标注得越精细,自动驾驶系统的安全性、稳定性就越高。

「除了视觉识别,在语音识别、文本识别等领域,数据采集和标注同样有着巨大需求。」

比如我们会发现某一家的语音识别功能特别准,即便带有背景嘈杂声、或是略带方言口音也能准确识别。

这背后就是依靠大量场景化的语料训练,比如专门区分孩子、老人的声音,各个地方的方言、口音、室外杂音标注等等……

从这个角度来看,人工智能系统就像是一个嗷嗷待哺的婴儿,等待着数据的喂养,并且随着时间的推移,食欲有增无减。

3

那么,用来「喂养」人工智能系统的海量数据素材都哪儿找去呢?又上哪儿找那么一堆人来标注数据?

小七告诉我,在数据采集和标注这件事上,大大小小的公司各有妙招:


大型公司通常不缺钱,他们需要的是质量和效率,因此他们多数会成立自己的数据部门,招募许多专职数据标注人员

这些标注人员就像工厂里流水线上的员工,每天的工作就时根据公司需求不停地对采集过来的图片、文本、语音数据进行标注。



0 (6).jpg

照小七所说,我果然在豆瓣、贴吧和论坛里找到了各种招聘数据标注兼职的帖子。


4.jpg


5.jpg

(豆瓣、百度贴吧、招聘网站和各种论坛都能找到标注员招聘贴)


中小型公司,有时会直接向第三方购买已经标注好的数据,或者用公开的免费数据。

需要做定制化标注,他们就会向一些小型打标工作室或者中型的专业标注公司、平台来购买相应的数据采集text-align:justify">最后再介绍一下我自己吧,我是谢幺,科技科普作者一枚,日常是把各种高大上的技术知识、黑科技讲得通俗有趣。如果有什么有意思的科技类问题,可以在知乎@谢幺,或者加我的个人微信:dexter0

不想走丢的话,请关注【浅黑科技】



关闭