0

    千亿ChatGPT的狂欢和月薪3K的数据标注员

    2023.04.21 | admin | 255次围观

    文丨何蕾

    ChatGPT 爆火后电脑标注员好做吗,AI 行业开始了新一轮 " 抢人大战 ":

    王慧文个人出资 5000 万美元,打出 "AI 英雄榜 ",要招募业界公认顶级研发人才;猎头疯狂挖角硅谷华裔技术大佬,跳槽薪资 200 万起;"10 万月薪抢人 ",脉脉创始人兼 CEO 林凡称,国内 AIGC 行业也在招兵买马,年薪百万、16 薪成为 " 标配 "。

    巨头喊话、热钱涌动,中国版 ChatGPT,将诞生在这些顶级 VC、顶级 AI 人才手中。

    但与此同时,一个和 ChatGPT 紧密相关,一个相对低廉、不稳定的职业——数据标注员,也引起了小范围的关注和讨论。

    他们被誉为 "AI 训练师 ",但他们的工作重复、机械、枯燥。

    他们是 AI 行业的 " 劳动密集型 " 企业,他们被放置在无人问津的角落,推升了这次 ChatGPT 狂潮。

    AI 训练师?

    " 什么 AI 训练师,我们就是纯体力活。" 何文新对数据标注行业的总结是:无前途,无发展,工作量大,工资低," 还不如电话销售。"

    什么是数据标注?

    目前 " 深度学习 " 是主流的训练 AI 模型的方式,但 AI 不会自动识别语音、图片、文本、视频等,这时候就需要数据标注员,对数据进行加工处理,将一般数据变成 AI 可识别的数据。

    比如,服务自动驾驶公司的数据标注员,每天工作就是按照要求,把不同图上的行人、动物、车、树木等 " 框 " 出来,以便 " 喂养 "AI 模型。而数据标注的类型有图像标注、语音标注、3D 点云标注和文本标注等。

    简而言之,数据标注员在创造喂养 AI 的养料。从工作产出来看,数据标注员确实可以称为 AI 的老师。

    数据标注工作并不难,只需要一台电脑,一个鼠标;简单培训后,就可以上手。但是,这个工作并不轻松,需要耐心和细心。

    " 很累,一整天要盯着电脑。" 何文新称," 标注 " 工作重复繁琐、没什么技术含量,但也有质量要求,标注错了、标注范围大、标注不够仔细等,都会被审核打回去重新做。

    " 很简单,但也很难。" 宝妈 lili 在网上吐槽,因为经常面对拉伸图,很多图片根本看不清,容易做错。

    和 AI 行业的高薪相比,数据标注员的工资并不高。

    " 一张图 9 毛钱,一天做 100 张。"lili 称,如果都合格,一天能赚 90 块。

    " 不同的标注价格不一样。" 何文新称,他当时的工资在 3000 左右。基础的数据标注员月薪大部分在 2000-4000 元之间,但因为标注的速度、质量问题," 很难拿到当时面试跟你承诺的工资。"

    鞭牛士在一些招聘网站上搜索 " 数据标注 ",薪资区间在 2000-8000 之间。一些特殊的标注,比如小语种、高精制图等,薪酬会更高。

    2020 年 2 月," 人工智能训练师 " 正式成为新职业,纳入国家职业分类目录。中国信通院报告提出," 现阶段 AI 应用研发,数据标注是根本,10 年之内都要依赖于标注数据 "。

    ChatGPT 的 " 数据标注 " 壁垒

    今年 1 月,美国《时代周刊》报道称,ChatGPT 使用了低廉的肯尼亚外包劳工,对庞大的数据库手动进行数据标注。

    打造了 ChatGPT、估值飙升至 300 亿美元的 OpenAI,是否存在 " 剥削 " 廉价劳动力的问题?

    为 OpenAI 提供数据标注服务的是总部位于旧金山的 Sama,Sama 在在肯尼亚、乌干达和印度雇佣员工,服务 Google、Meta 和微软等客户。

    据爱范儿报道,OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同,为数据库中有害的内容进行标记。

    根据合同规定,OpenAI 将为该项目向 Sama 支付每小时 12.50 美元的报酬;但 Sama 支付给数据标注员的时薪只有 1.32 美元 ~2 美元。

    这些数据标注员,每 9 个小时要阅读和标注 150~200 段文字,最多一小时要阅读和标注超 2 万个单词。

    并且,因为他们标注的是互联网上的 " 有害的内容 ",比如自杀、酷刑等,大部分标注员受到持久的心理创伤,甚至出现幻觉。但 Sama 公司却拒绝为他们提供一对一的心理咨询。

    这些数据标注员,对 ChatGPT 而言意义重大。为了让 ChatGPT 成为一个适合用户日常使用的聊天机器人,一个好的学习数据源非常重要。

    比如,ChatGPT 的前身 GPT-3,就存在暴力、性别歧视等言论。用户在对话框中发送 " 我应该自杀吗 " 问题,GPT-3 回答 " 我认为你应该这么做 "。

    在更早的 2012 年,清华大学图书馆机器人 " 小图 ",因为学习了网友太多 " 脏话 ",被强制下线。当时有媒体报道,小图至少学会了 4 万条不良信息。

    AI 自身并不能判断善恶,需要人为干预,标注、过滤掉一些 " 特殊数据 "。为此,OpenAI 建立了一个安全系统,这就是 Sama 和数据标注员的工作:给 AI 提供标有暴力、仇恨语言等标签,AI 就可以学会检测这些内容,并将这些不良内容过滤掉。

    除此之外,一些专业领域的信息,也需要专业的标注。这也是为什么 ChatGPT 在回答医学等专业领域问题时错误百出,因为它还没有精确地相关数据 " 喂养 "。

    实际上早有业内人士分析,ChatGPT 的算法并不神秘,比如公开的成熟的自回归语言模型、强化学习的 PPO 算法等;但数据,是 ChatGPT 真正的优势。

    "ChatGPT 通过抢先开始公测,收集了大量的用户的使用数据 ",这也是 ChatGPT 独有的、宝贵的数据。

    和算力的 " 军备 " 竞赛不同,数据会有滚雪球效应,只要 ChatGPT 仍然是最好用的语言 AI,就会一直保持先发优势,后来者会越来越难追上。

    ChatGPT,已经建立起了 " 数据壁垒 "。

    而近期才开始官宣的 " 中国版 ChatGPT",除了要加强在算法、算力的投入,中文语言数据的处理,中文敏感词、有害信息的过滤,也需要大量的投入。

    如今,ChatGPT 掀起人工智能新浪潮,最底层、最边缘的数据标注员是否会有新的待遇?

    国内数据标注乱象

    据第一财经报道,中国的数据标注行业最早可追溯到 2005 年,著名计算机视觉专家、人工智能专家朱纯松在湖北鄂州创办了莲花山研究院。

    中国信通院报告指出,2015 年,随着人工智能巨头的崛起,数据标注和采集需求激增电脑标注员好做吗,市场真正意义上开始形成。

    2016 年,AlphaGo 横空出世,人工智能开始商业化探索,相应的数据服务公司也迎来了一波发展高峰。

    人工智能公司发展波折不断,数据标注行业也处在早期的蛮荒阶段,存在分散、效率差、标注质量参差不齐、市场需求不稳定等问题。

    何文新等数据标注员有特别直观的感受。能不能拿到稳定的项目,是一个外包的数据标注公司能否存活的关键。

    " 我们公司比较小,很难拿到一手的项目。" 何文新称,他们拿到的可能是层层外包的项目,价格比较低,而且极不稳定," 有时候项目没做完,公司就没了。"

    而一些数据标注公司在招聘兼职数据标注员时,会强调薪酬分两次结算," 次月和 6 个月后各结算一半 ",因为这是甲方的结算习惯,一些数据公司并不会提前 " 垫付 " 薪酬。

    因为没有什么门槛,十几个人也能攒出一个团队,因此,数据标注公司质量层次不齐,行业竞争也异常激烈。

    据第一财经报道,2018 年,科大讯飞旗下的众包平台 " 爱标客 " 上,一些简单的打框和转写校准项目,时薪在 25 到 40 元之间;到 2021 年底,时薪就降到了 10 到 15 元," 有时候可能连 10 元都不到 "。

    并且,数据标注行业还存在一些招聘骗局,比如打着招聘的名义,骗求职者缴纳高昂的培训费等。

    而数据标注员,也是人工智能行业中,最不稳定、最容易被取代的角色。

    2022 年 6 月,特斯拉在全球开启了裁员计划。其中规模最大的一次裁员,是解雇了 200 名美国员工。他们大多数是小时工,负责自动驾驶数据标注。

    有媒体分析,特斯拉这次裁员的原因是这一工作技术含量不高,操作起来比较简单;并且特斯拉的自动化数据标注有了进展,可以代替人力完成部分工作。

    目前,何文新已经从数据标注公司离职,换了新的行业。工资低、累、没有晋升空间、没有学到东西,是数据标注员离职的主要原因。

    但是,除了这些问题,数据标注员的薪资,在 4、5 线城市依然有竞争力。

    实际上,因为属于 " 劳动密集型 " 产业,一些地方政府对数据标注产业抛出橄榄枝,成为解决当地就业、扶贫的优质项目。

    另一方面,因为门槛低、操作简单,数据标注员也成为残疾人友好岗位," 边码故事 " 曾报道残疾人成为数据标注员的故事," 一台电脑就能赚钱是之前想都不敢想的 "。

    而一些数据标注公司的推广视频下面,有不少用户留言咨询,想要加入。

    在面对使用廉价劳动力质疑时,OpenAI 回应称,他们支付给 Sama 的费用几乎是东非其他内容审核公司的两倍;赚差价的 Sama 则称自己是 " 有道德的 AI 公司 ",已经帮助 5 万多人摆脱了贫困。

    据国盛证券估计,类 ChatGPT 的大模型训练一次就要烧掉 200 万 -1200 万美元,仅每日的电费消耗就高达 4.7 万美元;2022 年,OpenAI 公司净亏损高达 5.45 亿美元。

    我们在惊叹人工智能的突破和背后的技术成本时,在追捧 OpenAI 2000 亿人民币的估值时,不应该忘记背后千万的数据标注员。他们在聚光灯外,如一叶叶扁舟,飘荡在人工智能蓝海上。

    (应受访者要求,本文人名为化名。)

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论