0

    量级市场?数据标注自动驾驶必不可少的一环?

    2023.05.15 | admin | 263次围观

    “有多少智能,就有多少人工。”

    在十余年的时间里,这句话伴随着人工智能的崛起挥之不去,2023年,工信部副司长任爱光指出,截至目前,我国人工智能核心产业规模已经超过5000亿元,企业数量接近4000家。这背后,从事数据标注的劳动人口超过千万,其中从事“自动驾驶,数据标注”的劳动人口达500万左右(数据来源:36氪)

    自动驾驶热潮下的数据短板

    自动驾驶技术的迭代需依赖大量的数据进行训练,数据贯穿研发、测试、量产、运营维护等全生命周期。2月份自动驾驶技术公司毫末智行宣布,将自动驾驶认知大模型升级为Drive GPT。这一个动作,让我们看到了受Chat GPT鼓舞,自动驾驶圈对于AI突破性的想象和期待,其实早在2019年,特斯拉就将Transformer大模型引入到自动驾驶

    不论是Chat GPT的突破,还是自动驾驶算法的进化电脑标注员好做吗,都离不开一个底层逻辑——基于海量数据的深度学习。这些数据不能是杂乱的,而是需要经过处理的数据,这样才能够帮助算法进行定向学习

    可以说,在自动驾驶的热潮下,数据是传统车企自动驾驶业务急于补足的短板,“数据标注”率先成了这场补短运动的隐形赢家

    质量+规模拉动数据标注需求快速成长

    毫无疑问,数据正成为自动驾驶下一阶段发展的核心要素。伴随智能网联汽车传感器数量的快速增加,自动驾驶车辆的数据生成量也将呈现指数级增长,这都将带来大量的数据处理需求

    在自动驾驶模型训练中主要包含算法和训练数据两大部分,因各家厂商算法大同小异,且存在很多开源的,算法难以区分高下。根据英特尔推算,在全自动驾驶时代,每辆汽车每天产生的数据量将高达4000GB,但可用于训练的价值数据约只占不到 5%,使得海量数据处理具有难度,因此在算法拉不开差距的情况下,训练数据就成了关键,且模型训练过程中涉及的数据集覆盖面越广,标注越精细,分类越准确、类型越多,自动驾驶性能就越好

    量级市场?数据标注自动驾驶必不可少的一环?

    此外,随着激光雷达、摄像头等感应器的不断丰富,自动驾驶的数据标注类型与数量在不断增加;随着高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶的数据标注量呈现出指数级上升的趋势;随着更多量产车的上路,未来回传的数据量也将是大量且多元的……这些都对数据标注产生了持续的需求

    数据标注-智能驾驶的“进阶之梯”

    在整个自动驾驶的数据闭环中,数据标注是被割裂出来的一部分,在自动驾驶领域,需要数据标注员掌握的标注技能不仅仅是2D拉框,更具备3D点云连续帧标注,2D-3D联合标注,3D语义分割标注等不同平台不同工具下的标注技能,以发挥数据的最大价值

    甚至基于 3D 点云标注的基础上,通过对感知物体进行物体的追踪与运动属性检测,并加入时序信息,由此获得4D 点云标注信息

    根据美国兰德公司研究,自动驾驶汽车需要在真实或者虚拟环境中至少进行110亿英里的里程测试,才能证明自动驾驶系统比人类驾驶员更可靠。因此除了疲劳监测、动作识别、场景光线等车内场景外,车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标以及闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等,这些场景数据都需要对应的标注方式

    但上述场景只是涉及摄像头数据,仅仅是数据标注的冰山一角。在智能驾驶汽车上,除了摄像头外,还有激光雷达、毫米波雷达、超声波雷达等多种配置,这些感知方式也都需要对应的数据标注

    由此可见电脑标注员好做吗,自动驾驶技术向更高级别过渡的过程中,其对于训练数据需求将显著提高,可见数据标注堪称智能驾驶的“进阶之梯”

    标注服务成自动驾驶热潮的必要环节

    作为自动驾驶技术应用落地的必要条件,数据采集、数据标注服务已成为支撑自动驾驶热潮必不可少的一环

    放眼世界各地,负责“喂养”人工智能的数据标注师成为新兴职业,而数据标注也是一个非常有意思的行业,你可以说它高大上,毕竟作为人工智能的“老师”,标注数据的数量越多,质量越高,其模式训练和性能也就越好;你也可以说它接地气,因此它是我们普通人创业就业都能够去做的方向

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论