0

    2020数据标注公司排行

    2023.07.28 | admin | 106次围观

    人工智能燃料机

    回想一下你的小时候,是如何学习认识苹果的?只需要有人拿一个苹果在你面前展示一遍,告诉你这是苹果,你就能举一反三,认识不同形态,不同颜色的苹果。这是人类特有的学习能力。

    但是,如何教机器识别苹果呢?我们要教它认识一个苹果,直接给它一张苹果的照片,它是完全不知道这是什么东西的。我们必须先给它学习大量苹果的图片,通过学习各种颜色、各种大小、各种形状、各种成熟程度和各种光线明亮程度下的苹果电脑标注员好做吗,掌握大量的图片中的特征,这时候再给机器任意一张苹果的图片,它才能认出来这是苹果。

    人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。

    那么,这些供给机器学习的材料从哪里来呢?这就是我们今天要说的一个因为人工智能崛起而新兴的行业——数据标注行业。所谓数据标注,就是人工为图片、音频和语音内容做标记,打标签,把大量非结构性数据加工成机器可以识别的数据,标注好的数据会被人工智能公司用来训练算法模型,然后运用到图像识别、语音识别、自动驾驶等不同领域。

    在整个人工智能体系中,算力、算法和数据是人工智能进化的三大元素,分别承担着人工智能基础设施能力、工作指导方法和算法进化依据的角色。这三大元素相辅相成,共同推动人工智能的智慧化进化水平。在人工智能运行模式中,“数据”作为至关重要的参与元素,从本质上决定了人工智能的进化水平。因为通常来说,数据标注得越准确,数量越多,模型效果越好,最后的产品效果就越好。换句话说,“数据”作为人工智能系统中的算法依据,就是人工智能学习的教材,是人工智能的燃料机。

    数据标注的三种市场结构

    一个完整的数据标注流程需要经过任务分配、标记程序设计、进度跟踪和质量跟踪等几个环节,环节中涉及到标注员、审核员和管理员几个角色,这些是任何一个数据标注团队都具备的基本要素,不同的是组织工作的方式。

    大多数AI实验室、初创型AI公司在发展初期,都需要大量的数据来训练模型,但如果雇佣大量的人力进行数据标注,就不得不面临这样的处境:一是管理方面的挑战,在研发产品的同时还要把大量精力放在管理标注人员身上;二是成本的挑战,大量全职标注人员的薪酬对于初创型公司和研究实验室都是一笔不小的支出。

    于是,数据标注公司随着发展如火如荼的人工智能行业也发展起来。为了适应人工智能公司对数据标注不同程度的需求,当前,我国数据标注行业的市场结构也分化为了几种。

    最开始兴起的是众包结构,在众包平台上,一端对接需求公司,一端对接大量有空余时间的志愿者(兼职人员)。众包结构的优点是可以组织社会上的大量兼职人员进行标注,节省公司的运营成本,但缺点也很明显,就是众多分散的兼职人员之间合力完成一个大型标注任务,他们的专业背景和工作能力参差不齐,沟通成本高昂,数据保密也相对困难,一旦需求公司要调整原有标注需求,兼职人员流动性大,无法给与需求公司灵活服务。意识到自身的缺点,近年来一些众包平台也开始对入驻的数据标注团队进行测评,以及采取末尾淘汰等措施,提升平台整体的竞争能力。当前,市场上典型的数据众包平台有京东众智、百度众测等。

    另外一种就是工厂结构,即成立专门的数据标注公司,有稳定的标注人员。相对于众包结构,数据工厂的优势是标注人员稳定,需求方和数据标注方能即时沟通,沟通成本降低,同时,数据传递也有源可溯,降低了数据泄露的可能性。但工厂结构的公司也有它的烦恼。现在市场上工厂结构的数据公司两极分化明显,较大的长期员工可以达到上千人;而较小的,只有几个人,很多小团队还存在有项目时成立,没项目时解散的现象。由于人工成本风险较高,两极分化下的工厂结构市场还衍生出了这样的现象:大公司很少去对接短期且数据量较少的项目,小的公司可以承接这样的项目但是有大批量数据任务到来时,数据标注能力又会显得捉襟见肘。目前,市场上规模较大的专业的数据标注公司有Testin云测、星尘纪元、梦动科技等。

    也有一些将众包和工厂结构融合的企业,能够根据项目大小和数据保密要求灵活部署,例如数据堂和龙猫数据,都有自己的标团队,同时也运营数据标注众包平台。

    这三种数据标注的市场结构都有各自的优势和局限性,结合众包+工厂模式的第三种结构是否会成为未来数据标注行业的主流形式,还有待实践的检验。因为除了市场结构,准确率和灵活性在数据标注中的重要性正在变得越发突出。

    准确率是核心竞争力

    无论是工厂、众包还是将两者结合的市场结构,都是在成本、准确率和灵活性上做选择,随着越来越多数据喂养给了人工智能算法,人工智能公司必须想办法积累更多更准确、符合自身应用的数据。某种程度上来说,高质量的标注数据,决定了人工智能公司的竞争力。

    随着AI应用的加速落地,压低报价和提交更多的数据标注结果显得不再那么重要,准确率成为脱颖而出的命脉。在大型人工智能公司面前,数据标注企业的准确率提升一个百分点,竞争力将跃迁几个层级。

    任何一个行业,在经历了早期的疯狂生长后,最终一定会经历一番洗牌,变得更为规范化、透明化。届时质量会取代成本,成为需求方最优先考虑的变量。

    当AI完成初级识别,要进行深度学习训练后,甲方的人工智能公司对数据质量和效率的要求将超越对成本的顾虑。往金字塔的高层发展,这个行业的缺口仍然非常巨大。

    大浪淘沙,不妨大胆预测,数据标注行业有两类机构最终会发展较好:一是注重质量及服务的中小型数据标注公司,二是自有整套数据技术,能依靠人工智能增加准确率的平台。

    人工智能背后的“人工”

    形形色色的数据标注公司、众包平台之下,不能忽视的是数据标注员。

    尽管对数据标注的要求越来越高、越来越精准是大势所趋,但是,一个不容忽视的事实是,数据标注行业现在还是劳动密集型产业。

    重复的拉框、标点,一个个数据标注员通过大量重复劳动为AI输送了几十亿甚至几百亿的喂养数据,这些数据标注员有一个被圈内人默认的外号:AI民工。

    在中国广袤的三四线城市、乡镇,无数年轻人正成为“数据贴标人”,他们每天坐在电脑前工作8小时以上,为AI公司的算法提供和处理大量数据。他们中的大多数人教育水平不高,重复的机械劳动为他们带来了微薄的工资,全然不知自己正在参与“价值上亿”的项目。

    他们是“人工智能背后的人工”。当前,人工智能行业依赖于大量的这种廉价的人工,因为算法和“机器学习”在很多情况下都是由真人训练。

    这些类似富士康工厂的流水线工人,却有着自己的梦想故事。从大众的视角,他们是被忽视的一群人;在大众关注不到的地方,数据标注公司不仅仅是为人工智能赋能,也在赋能“人工”。

    贵州梦动科技有限公司是少有的产教融合的数据标注公司。公司紧邻着一家扶贫高职“盛华职业学院”,此处的学生大多来自贫困山区,该公司近一半的数据标注员也来自与此。公司的一些工作人员,同时兼任着学校的老师。学校的学生在公司实习,赚来的钱不仅足够生活,有时还能拿出一些补贴家用。这份数据标注的工作帮助他们改变了自己和家庭的命运,有时,一些优秀的学生还能成为人工智能公司的专业标注员,完成职业升级。

    同样赋能“人工”的还有京东众智。京东众智上有一千多名聋哑人数据标注员,京东为他们成立专门的“静公会”,项目上优先照顾。

    这些曾经在社会上的边缘人物,终于在“数据标注”领域成了“有用的人”。一位京东众智平台的培训讲师说:“想当把英雄,承担更多的责任。”聋哑人培训相对来说会费劲些,但是他们的优点是专注、认真、对视觉信号敏锐,数据标注行业对他们来说是机会。

    事实上,除了数据标注员的职业升级野望,数据标注行业还承载着很多创业者的人工智能梦。

    一位小型数据标注公司创始人曾说:“虽然标注是相当低级别的工作,但进入门槛相对较低,而且仍属于人工智能行业。”他说,“所以我们认为,如果我们可以从这里开始电脑标注员好做吗,也有可能慢慢地、一步一步地走向更高价值的领域。”

    机器会代替人类吗?

    数据标注员也有一些担忧,他们的工作是帮机器更好的学习,促进人工智能行业的发展,而当行业发展到一定阶段,那还需要人工吗?数据标注员所做的工作就是在加速自己失去这份工作。

    开发一款能够实现自动化数据标注的工具,既是在解放人力,又是行业发展的必然结果。一旦智能化的数据标注工具能够替代人工,即使是能部分替代,数据量和质量都会快速提升,进而推动算法成熟得更快。而市场上已有企业在开发自动化数据标注工具,尝试用AI取代“AI民工”。

    机器会代替人类吗?或许,马云先生在2018世界人工智能大会上所说的话,至今仍有启发意义:“蒸汽机释放了人的体力,但是蒸汽机并不是模仿人的体力,汽车比人跑得快,但是汽车并不是模仿人的双腿。未来的计算会释放人的脑力,但是计算机不是按照人脑一样去思考,机器必须要有自己的方式去思考。”

    让计算机拥有自己的思考方式,是一个复杂的过程,在这个复杂的架构中,数据标注是滋养这个系统运转的燃料,通过不断升级改变的标注内容来适应不断强大的人工智能。

    汽车的出现,让马夫失业了,但是马夫并没有活不下去,而是去做更高级的工作,比如司机、汽修人员。19世纪纺织业突飞猛进发展,一些任务变得自动化,大量纺织工人下岗,但机器降低了制作衣服的成本,人们对布料的需求也在增长。服装需求的增长又带来了新的就业机会,工厂不得不雇佣新一代的工人,学习操作复杂的机械。

    当一些需求被满足时,又会产生新的需求。新技术、新科技,从来都不是人类的限制,而是人类一种认识和思考世界的方式,我们借助新技术为自己的未来确定一种生活方式。

    结语

    在探讨数据标注这个行业存在的合理性与是否能长久发展之前,能带给从业者的改变和对人工智能的推动就已足够振奋人心。

    现在就已经很有意义,未来会更有意义。

    (文/迷镇)

    【排行“i系列标准”统一详细说明】

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论