网络大数据公司起名 追浪AIGC?|AI催生“数据标注者” 对数据质量提出要求或释放更多价值
人工智能产业的发展催生了“新流水线工人”,时薪在10元到30元之间,时髦的新名字是“数据贴标机”。
人工智能的大模型给人们带来了强烈的智力冲击,其尖端的神经网络研究、精良的计算机设备和光鲜亮丽的精英人才结构让人惊叹。 然而公司起名,在这种智慧的背后,却是极其枯燥的工作。
近日,南方财经全媒体记者注意到,全国多地数据标注招聘市场火爆,相关创业模式也层出不穷。 提升数据质量成为人工智能开发者“弯道超车”的策略,但提升相关工作者的工作价值也是长远发展中不可忽视的问题。
数据标注的市场需求越来越大
“10元-30元/小时(与项目难度正相关,3D类>语音类>2D类>普通绘图转录类,编码类)。” 4月13日,南方财经全媒体记者在招聘APP“老板直聘”上看到一则招聘广告。 在AI行业,这样的工作让人联想到电子厂里的“流水线”工作。
2023年春天,市场一半以上的注意力已经被“大模型”吸走,但一批企业正在转向“数据端”另辟蹊径。 这是他们抓住这波AI浪潮的机会。
算力、算法、数据是人工智能的“三驾马车”。 一位从事计算视觉的程序员告诉南方财经记者:“对于一些公司来说,算力和算法的优化远不如数据的优化带来的好处。”
眼下,在算力和算法的赛道上,龙头企业最为耀眼。 无论是微软、谷歌、华为、阿里,还是百度,大规模模型的资金成本都是其他公司望尘莫及的。 芯片的采购动辄上千万元,高薪(或“挖”)的人才根本不在乎成本。
然而,变化席卷整个行业,“幕后英雄”也浮出水面。 4月初在复旦大学举办的研讨会上,计算机学院教授、MOSS系统负责人邱锡鹏提到,MOSS的成功不仅仅来自于大家津津乐道的模式,昂贵的计算能力由微软提供,也来自于外包了一家专业的数据清理公司。
美国某大学数据分析硕士毕业生李梦(化名)告诉南方财经全媒记者,她目前在一家生物医药公司实习,她所做的是优化数据标签程序。
“大模型靠的是数据训练,但数据的收集、清洗、标注和质检要先做好。” 李萌介绍道。
数据标注领域的知名学术人物李飞飞在2009年发表了一篇关于该数据集的论文,引发了一场算法竞赛。 依靠大量标注好的图片,算法公司发起了图片识别比赛,错误率最低的获胜。 直到现在,很多人都会将其视为这波人工智能浪潮的催化剂。
在今天,数据标注依然如此重要,需求量更大。 人工智能发挥作用的行业,将需要大量的模型“喂养”,不仅限于城市安防、物联网、交通、生物制药等领域。
数据标注的“粒度”也在提高。 4 月 5 日,Meta AI Labs 发表了一篇关于这个计算视觉模型和数据集的论文。 论文中提到,需要人工标注的图片多达12万张,平均每张图片44层,每层标注时间需要14秒。 综合计算,人工标注耗时20533小时。 如果你雇佣一个 100 人的团队,每天工作 9 小时,需要 23 天。
无聊的流水线工作
“如果数据量太大,一般公司都会聘请外包公司来承担。” 李萌向记者指出。 外包公司把数据标注变成了计算工分的工作。
根据老板直聘APP上的上述广告,时薪价格因工作内容而异。 时薪能达到30元的是指3D工作,一般是在实际场景中标注具体的东西,比如雷达车道线的画框,道路上的雷达目标。 然后是语音类,指的是语音转文字、方言转录、叫醒助手等标签。
2D类比较简单,指的是平面图片和文字段落的标注,或者OCR(文字识别)转录,比如交通违章图片中的人车、红绿灯、交通标志的识别。
最低价编码类别是指验证码中的计算题,哪些图片包含火车。
“数据标注很枯燥,纯体力活,每次标注200个就觉得恶心。” 在浙江某大学读书的小何告诉南方财经记者。
以此为生的数据标注者,工作强度可能更加难以承受。 除了在电脑前耐心地坐上几个小时,耗尽视力,他们还可能要面对原始数据中的限制级内容,涉及性、暴力和仇恨。 演讲等
数据标签行业继续呈爆炸式增长。 早在2021年,人社部就发布了《人工智能培训师》国家职业技能标准,涵盖数据标注师和人工智能算法测试师两类工种,反映出相关行业在当年的火爆程度时间。 该标准将人工智能培训师分为五个等级,从初级工人到高级技术人员。
数据标注看似“无脑”,但由于实际实施需要,需要严谨的工作态度。 例如,如果自动驾驶领域的标注缺乏质量控制,那么相关软件就无法保证汽车安全上路。
然而,围绕着数据标注者的低薪、长期伏案、内容重复和精神压力等问题,舆论也在围绕相关职业保护进行发酵。 如果数据标注员的工作环境和价值得不到提升,这个职业的寿命还存疑。
后市看涨
近日,南方财经全媒体记者从北京、上海、广州等多个招聘渠道获悉,从北京、上海、广州到陕西省榆林市清涧县、“大数据之都”贵阳市惠水县百鸟河数字小镇,数据贴标公司在市场上纷纷发布招聘广告。 相应地,数据识别公司本身也被视为具有极大利益潜力的投资标的。
记者发现,数据识别行业正在涌现一大批“个体户”。 在百度贴吧上,大量的项目都在号召所谓的“团队”进行投标。 从帖子的内容可以看出,只要有相对固定的人数和固定的团队工作时间,就可以接手大公司下发的项目标书。 从业者表示,除去场地租金、电脑和桌椅配置、每月水电费、人工费等八字取名,这种个体分包商赚取的是中间差价。
但是网络大数据公司起名,这个行业当然也在向着规模化、公司化的方向发展。 行业内有两种公司网络大数据公司起名,一种是大型互联网公司的内部部门,一种是外包公司。 后者正成为资本市场的“香饽饽”。
2021年将在科创板上市的海天瑞升,股价从1月初的60元飙升至今年的200多元。 公司从事语音识别、语音合成、自然语言处理、计算机视觉等数据集技术的开发。 2022年公司营收将达到2.63亿元,较2021年仅增长27.3%,净利润则小幅下降6.56%至2953万元。 尽管如此,以4月12日187元/股的收盘价计算,公司市值已达80亿元,动态市盈率为326倍。
非上市公司也获得了更多资本青睐。 2022年12月,星尘数据完成5000万元A轮融资,距2018年6月上一次融资时隔四年半,这也反映出资本市场或将重新聚焦这一新兴领域。
“因为‘廉价劳动力’往往是数据标注公司的招牌,得不到足够的重视。” Data 在官方新闻稿中写道。 该公司表示,它正在通过自动化提高贴标效率。
人工智能的飞轮在转动,数据还在海量增长。 据数据公司数据显示,2023年全球新增数据可能达到120ZB,2025年将达到181ZB。其中美国、德国、英国、中国是前四大数据——产生国。
然而,业界正在争论“以数据为中心的人工智能”是否会取代“以模型为中心的人工智能”。 著名人工智能学者吴恩达(Ng)是前一种说法的持有者。 他多次强调,人工智能的价值只有在标注好的高质量数据中才能释放。 如果行业更注重数据质量,人工智能的发展会更快。
基于原始数据增长的数据标注将不断扩大,并会因市场需求而产生价值波动。 华晶产业研究院在近期的一份报告中预测,到2029年中国数据标注市场规模将达到204.3亿元,较2019年的43.3亿元增长约3.7倍。
数据标签行业未来能否摘掉“人力工厂”的标签,又将如何利用自动化和技术手段完善数据策略,融入AI更高层次的发展浪潮? 人们会拭目以待。