人工智能的战场,决胜于百万县城青年
【慧聪教育网】白女士坐在电脑面前,她的全部的工作内容,就是“教”人工智能认图、认字,仿佛它是初识这个世界的小孩子。
在她所供职的县城公司,和她一样重复着简单机械工作的同事,近200人,如果将视野放到全国的“人工智能数据标注公司”,已有上百万人从事这个职业:人工智能数据标注师。
他们是智能时代最后的手工业者。
数据标注师的主要工作是——调教AI。
他们的任务一开始比较最简单,比如判断句子意思是否通顺;进阶任务是识别图像、验证码。其中识别图像包括做人脸标识,这要求他们在各种角度、遮挡、清晰度的条件下,标注出五官、脸型的轮廓与位置,每张脸上要标出100多个识别点。
人脸识别示意丨arXiv:1706.01789
如此调教AI的本质,是对图像数据做结构化处理。
一颗苹果在不同光照、遮挡的环境下,人只要看一眼都能准确识别。虽然人类脑部处理其信号的原理在学界仍有争议;但计算机看见苹果,只能接收到一张由不同像素点组成的网络,而无法从整体进行识别;并且晴天下的苹果和雨天下的同一颗苹果,将为计算机输出不同的像素点阵。
因此只有人们将视频、图像、文字、声音等信息进行标注的结构化处理后,才能为计算机所识别。
这种对人工智能系统投放有标注的数据的过程,就是人们常说的“训练”。人工智能的先进程度与其训练的数据规模与准确度密切相关,数据越多、越准确,系统就越智能。
智能驾驶、病例诊断、名片OCR、手势符号、农产品、商品信息、金融服务......高大上的人工智能已经应用到了城市生活的方方面面。科技巨头们围绕人工智能,展开了奋力的竞逐。
分布在全国各地百万“人工智能标注师”们的标注效率,正左右着科技巨头人工智能竞赛的胜负。
一
清涧县,黄河边仅20万人口的一座小县城,位于陕西省榆林市。2019年,阿里巴巴在此与当地政府政府合作开发了名为“AI豆”的扶贫项目,根据协议,阿里提会为产业园供订单并且负责培训,而当地政府出场地与设备参与共建。项目招聘会明确倾向社会就业弱势群体,并且要将80%的收入用于薪资发放,并不得进行利润分红。
AI豆员工的主要工作内容就是为人工智能做标注,是县城里雇佣人数最多的一家企业。除此之外,全国7省8县都设立了AI豆扶贫合作项目,截至2020年底,共计吸纳近800人就业。
AI豆项目是个纯粹的扶贫项目。但阿里巴巴相关人士也坦陈,仅靠数百人的“AI豆”扶贫项目,远远不能保障阿里人工智能的后勤供给。“整个行业的需求量实在太大了。”
事实上,包括阿里在内,每一个拥有大量数据需求的科技巨头均建立了各自的数据标注供应链。其中众包平台是他们获得标注服务的重要方式,例如腾讯搜活帮、百度智能云、京东众智、科大讯飞爱标客等,均是如此。
众包是一种灵活用工模式,参与者无需与平台或数据需求方建立雇佣关系,仅通过网络完成协作,根据完成的任务包获取记件收入。
通过众包模式,科技巨头能快速聚集大量闲散、弹性的劳动力,无论是全职或是兼职,只需完成培训便可直接上岗。对企业而言,先完成任务再付费也是非常稳妥的选择,并能外化企业薪资负担。
笔者也试着在腾讯搜活帮平台上体验众包任务。在通过文本识别、搜索相关性、时鲜性、内容判断等多种考试后,就可以抢单对应任务。在通过难度相对较高的文本识别考试后,完成了两套奖励为150元宝的任务,耗时约3分半钟。
每1000元宝可以兑换1元钱,按正常工时计算,每月收入能在1800元左右。随着操作熟练度的提升、高难度题目奖励的提升,完成任务的效率也会随之提高。以目前的任务奖励计算,熟练的标注师有望获得3000元甚至更高的薪水。
腾讯搜活帮任务界面
选择众包或者第三方公司提供标注服务可以更灵活,但如果需要高质量或稳定的标注服务,或涉及核心知识产权的内容,自建团队更稳妥。
有媒体报道,在百度山西人工智能数据产业基地,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后。今日头条公司在天津、济南、武汉各地,也招募了4万名数据标注师。
除了大型互联网公司自建与组织众包标注师,市场上还活跃着诸如龙猫、云测、数据堂、爱数智慧、海天瑞声等第三方服务商。
林林总总,全国标注师就业总人数已超过百万。
2020年4月26日,人力资源与社会保障部发文正式宣布,“人工智能训练师”正式成为新职业,并纳入国家职业分类目录。该文同时披露,仅阿里巴巴业务生态内,人工智能训练师从业者已逾20万人;预计到2022年,国内外相关从业人员有望达到500万[4]。
人社部发布通知
人社部发布新职业信息,标志着这个群体规模与影响力都在壮大,以至于全面进入了监管视野,相关的职业规范、行业培训体系规划或将接踵而至。
二
天空的颜色、路边的风景、交通路况、CT片显示的病灶……所有视觉、声音或者文字信息,都隐含着这个星球的秘密。若是数据的标注不需要成本,人类应该想让机器感知整个物质的星球。
在机器学习的过程中,参与的数据集被分为训练集、验证集与测试集,机器的任务就是对根据训练集的数据点进行拟合、通过验证集调教预测模型,并进行测试集准确度评估。
像白女士那样手把手教人工智能学习的方式,被称为“有监督”的机器学习。但当人工智能被逐渐养熟后,它自身的识别能力与模型拟合准确度将不断提高,进入人机协作模式。
直至人工智能会在某模型的注准确度与效率完全超过人类,此时它便要离开人工标注,进入无监督机器学习。
理论上说,每一个垂直场景随着技术发展,人工智能都有可能进入无监督学习状态。
2020年8月15日,特斯拉创始人马斯克宣布要建立名为“Dojo”的神经网络训练机器项目,用于处理特斯拉汽车驾驶过程中摄像头产生的数据,并鼓励AI以及计算机芯片工程师加入该团队[6]。
目前每辆新款特斯拉配置有八颗摄像头,产生的数据量更是远超10TB。
所以标注师这个职业,未来会消失么?
一位不愿透露姓名的自动驾驶公司工程师向笔者表示,人工智能应用的领域很广泛,每个细分领域的处理方式很不一样,“至少在短期内,我所在的图像识别领域还不能离开标注师。”
他例举了四点理由:
1.计算机视觉领域仍然处于早期阶段,神经学习领域在最近5年才有了飞跃式提升,目前还在积累数据;
2.在计算机视觉领域,学术层面的确有无监督学习的训练方式,但是在实际图像识别训练的角度上,目前每一家都还是进行有监督的学习;
3.在市场的角度看,无论是车企本身还是自动驾驶解决方案供应商,仍处于构建自己核心能力的阶段。在这种竞争环境下,大家都没有建立公用数据库的动力,因此自有结构化标注的数据的价值就会更加凸显;
4.从技术的角度看,目前市场上识别技术还没有出现公认的最优解。各家的算法都有不同的技术路线,一旦算法的更迭,还是需要新数据去训练和进化。因此在算法公认最优解出现之前,人工对数据做标注依然非常必要。
他还补充道,真实世界总有意想不到的情况。没人知道人工智能会把挂载自行车的吉普车或是运载着着好几辆小车的重型卡车识别成什么样子。更准确的人工智能,仍然需要海量、多样且真实的数据持续补充。
另有数位相关领域从业者认为,目前人工智能应用场景还在不断深化,诸如疫情期间大量公司的人脸标注工作就重新围绕口罩遮挡的场景做了处理,在工业垂直场景、医学诊断等场景中,人工智能的应用仍处于萌芽阶段。因此公司对标注师的技能要求可能会越来越高,但在可预见的3~5年,数据标注产业的规模应该会确定性的成长。
曾几何时,人们担心AI的终局将把人类从简单、机械、重复的劳动中解放出来,从此人类只需要专注于需要创造、情绪、社交互动的岗位。
却未曾想过,构建人工智能的过程,竟然创造出众多简单、机械、重复的劳动岗位。
或许,他们就是人类最后的手工业者。
三
白女士已经工作一年多了,她形容这份工作的感觉就是——“刷题”。不过刷着刷着,也慢慢觉得有了些意思,比如在遇到不认识的图片或文字时,查查资料也能学到点新东西。
但作为扶贫项目,这个简单、机械、重复的行业能否做到“授人以渔”?
他回复了以下几点:
1.绝大多数标注师文化程度较低,通过培训他们起码掌握了电脑的基本操作能力;
2.业务的订单分细分了很多诸如金融、医疗、交通等行业领域。如果不是标注工作,他们可能永远也不会接触到这些行业,而理解行业专用词汇的过程就是学习;
3.最关键的是,标注师是他们在县城就业普遍的最优解,标注师收入通常比当地销售或收银员要高一些。
至于外界对标注行业的“数据富士康”评价,他回应称:“外人不能太上帝视角了,是不是好事,还是要站在他们的立场去看问题。”
当机械代替人力成为时代的强权,有批人失去了工作,但围绕着机械新创造出了能源、制造、维修、运输等产业,另一批工作又诞生了。
在可预见的将来,人工智能也许会成为新的时代权力高点,届时围绕人工智能,全新的职业秩序又将被重新建立。
至于人工智能会带来什么样的未来,也只能交给更远的未来去回答了。科幻电影《银翼杀手2049》中,华莱士有一句话:Every leap of civilization was builton the back of adisposable work force——每一次文明的跃进,都建立在可被抛弃的劳动力基础之上。
且看看标注师们喂养长大的人工智能,将反哺给我们一个怎样的世界。