拥有传播学博士学位的美国人马特(Matt)最近获得了一份自由职业:他成为Scale AI的一员,在家里训练AI模型。
“通信博士”和“训练AI模型”,Matt就此成为一名光荣的AI程序员了吗?其实不然。Matt的工作很枯燥:他在Scale AI的系统中“接活”,站在用户的角度浏览AI模型给用户的各种回复,判断AI是否错误,然后提供反馈。比如,他为谷歌的AI训练预订机票,并评论ChatGPT的哪些回答会收到用户的差评。
Scale AI自己并不生产大模型,它已经和谷歌母公司Alphabet、OpenAI、Meta等多家AI厂商达成合作,为其提供“人类”。
然而,来自非洲、印度、菲律宾等地的廉价劳动力已不足以满足客户需求,Scale AI 已经开始收缩海外业务,并在美国雇佣数十万名工人,其中就包括像马特这样受过高等教育的人士。
这家成立八年的大模型数据标注公司今年 5 月刚刚完成 10 亿美元 F 轮融资,由 Accel 领投,亚马逊、英特尔、AMD、思科、Meta、老虎全球基金等全球知名公司参投。公司预计今年销售额将突破 10 亿美元,成为销售额排名前列的生成式 AI 公司之一。
其最新估值已达138亿美元,这在所有AI初创公司中算得上不错成绩,远超硅谷明星公司Hugging Face去年8月融资后的45亿美元估值,也更接近埃隆·马斯克的xAI在最新一轮融资后估值180亿美元。
一
规模人工智能,让人类为人工智能做艰苦的工作,已经成为当前人工智能竞争中至关重要的弹药库。
当我们提到“大模型训练”的时候,我们会想到用上千个先进的芯片来驱动大模型,让它们去分析几百亿字节的文本。其实这只是第一步——预训练。
但仅凭这一点不足以确保 Anthropic 的 Claude、OpenAI 的 ChatGPT、Meta 的 Llama 和谷歌的 Bard 等系统提供以人类风格编写的正确答案。
为了实现这一点,还需要第二步:微调。这需要大量的人力,这些人力可能是公司内部的AI制造商雇佣的,也可能是从Scale、Surge AI、Labelbox、Telus International等公司雇佣的。这些公司提供大量的人员来为客户的聊天机器人写出理想的回复,并教机器人提供更“完美”的答案。
为 AI 模型提供数据标注服务的公司并非新鲜事物,上一次此类公司腾飞还是在自动驾驶领域。
Scale AI 成立于 2016 年。其实 Scale AI 从成立之初就与 OpenAI 关系密切,孵化于 Y Combinator(以下简称 YC)的创业赛马项目中,在项目完成前就曾得到 YC 的支持。当时 YC 的总裁是 Sam Altman,后来他又联合创办了 OpenAI。
然而“千模大战”尚未开始,Scale AI 就率先赶上了席卷硅谷的自动驾驶技术热潮。要实现自动驾驶,需要训练 AI 算法,而当时没有其他外包公司有能力对自动驾驶汽车的雷达和传感器生成的三维图像进行标注。
Scale AI 的工程师最初花了几个月的时间为自动送货初创公司 Nuro 打造了一款 3D 注释产品,很快 Alphabet 旗下的 Waymo、通用汽车旗下的 Cruise ,甚至苹果都成为了 Scale AI 的客户。
截至 2017 年底,Scale AI 雇用了 1000 多名贴标员,主要分布在菲律宾。这些合同工平均每小时工资 1.50 美元,每周工作 10 小时。
到了 2019 年,OpenAI 已经成立数年,一直专注于开发大型 AI 模型,后来也成为了 Scale AI 的客户。不过当时大型 AI 模型客户并不是 Scale AI 的主要收入来源。
随着自动驾驶技术热潮逐渐消退,市场回归理性,Scale AI也遭遇危机,2022年Scale AI营收增幅曾下降50%,令投资者大失所望。
然而2022年底,OpenAI发布ChatGPT,Scale AI的“第二春”瞬间绽放。
除了OpenAI,Scale AI还围绕大模型与Meta、谷歌母公司Alphabet达成合作,公司营收从2022年的2.27亿美元飙升至2023年的6.8亿美元。
站在潮流前沿的Scale AI设定了2024年营收增长206%的目标,并希望实现盈利。
二
此时,Scale AI 也开始做出一些改变,来自海外的廉价劳动力只能承担很基础的工作,而大型模型驱动的产品开始在写作、编程、专业知识等方面“较劲”,Scale AI 需要升级自己的“雇佣兵”。
在一次投资者介绍会上,Scale 表示正在建设关键的 AI 基础设施。该公司开始将自己定位为“AI 数据代工厂”,让人联想到一家半导体公司。
Scale AI的创始人也开始公开谈论拥有博士学位的人,或者医生、律师等人在训练AI系统方面的贡献:“我们需要最优秀、最聪明的头脑来贡献数据。”
据 Rest of World 报道,Scale AI 最近关闭了位于肯尼亚、尼日利亚和巴基斯坦的承包商站点,并将重点转向美国,招募高学历人才,以帮助提供训练大型模型的专业知识。
约有 30 万人正在通过 Scale AI 子公司 Outlier 运营的工作小组等待工作。
美国的Scale AI“雇佣兵”工资不菲,平均每小时工资为40美元。不过这份工作依然摆脱不了“辛苦”的感觉。
马萨诸塞州的自由职业者和编辑梅丽莎·夸西 (Melissa Quashie) 在 Scale AI 每小时挣 40 美元,她的工作包括评估大型模型生成的不同响应,并根据它们回答问题的方式和响应质量对其进行评分。
对于 Quasi 来说,在 Scale AI 工作就像是“我玩过的最愚蠢的电子游戏”。她曾经花了两个小时写了一份“三天食谱”,只是为了改善聊天机器人的回答。
此外,随着Scale AI积累了大量的工人,供需关系也开始变得不平衡。很多时候,Scale AI分配的客户任务已经无法满足“雇佣兵”的需求。很多人发现,虽然这份工作时间灵活、薪资诱人,但经常无事可做。The Information采访的10名Scale AI“雇佣兵”大多都有同样的抱怨。
或许是公司业务在人工智能浪潮下扩张过快,又或许是Scale AI更注重服务客户,而非员工的工作体验。总之,Scale AI也开始暴露出其他问题。除了工作量不够,人们还抱怨其缺乏培训,系统经常崩溃。
更让人气愤的是工资结算问题,就连美国为Scale AI提供劳动力的“高学历人士”也没有发言权,开头提到的Matt博士就表示自己被Scale AI无缘无故踢出平台。
报酬的结算不是按照工作量来算,而是按照工作质量来算,最终解释权自然是归Scale AI所有。而且就算应该拿到报酬,也可能因为客户确认慢而拿不到。
三
根据劳动质量而不是劳动量来支付工人的报酬将有助于Scale AI控制成本,这是Scale AI现阶段的一个关键瓶颈。
随着公司将重心从提供廉价劳动力的海外市场转向美国,Scale AI 的成本更难控制。根据 The Information 获得的财务数据,Scale AI 的毛利率(包括支付人工成本)从 2022 年的 59% 下降到 2023 年的 49%。
与此同时,Scale AI 告诉投资者,它正在努力降低成本。该公司预计今年的毛利率将提高 5 个百分点,到 2025 年将提高到 60%。
该公司向投资者表示,它正在通过使用内部工具自动识别“高效专家”并依靠计算机生成的数据来提高人类工作的效率,从而降低手动训练模型的成本。
削减成本的另一种方式是减少内部员工(不同于“雇佣兵”,这里指的是在Scale AI工作的正式员工)。2023年2月,Scale AI一方面看到了AI浪潮的到来,另一方面也看到了宏观经济和硅谷裁员潮的冲击,抓住机会,大刀阔斧地裁减了20%的员工。
除了尽力压缩成本之外,Scale AI也在寻找扩大业务的方法。
尽管遭到众多员工的反对,Scale AI 早已放弃了不与政府合作的承诺。近几个月来,Scale AI 联合创始人亚历山大·王 (Alexandr Wang) 曾与美国陆军将军一起出现在华盛顿的舞台上,该公司每年从政府合同中赚取超过 1 亿美元。他还曾前往同样热衷于开发自己的大型语言模型的卡塔尔,与政府官员举行闭门会议。
除了向AI生产者提供大量人力外,Scale AI还提供AI生成的合成数据集——利用AI生成的数据来训练AI,以满足AI大模型训练不断扩大的需求。
现阶段,“优质人力”依然是Scale AI最依赖的生存“资源”,因此公司也在采取措施,维持“优质人力”中的最优秀。
在德克萨斯州奥斯汀和佛罗里达州杰克逊维尔,Scale AI举办了数天的研讨会,邀请了数十位“顶级苦力”参加。
一位参加奥斯汀研讨会的人士表示,大约有 50 名培训师参与了一个据信与 Alphabet 的 Bard 聊天机器人相关的项目,他们讨论了各自针对不同提示所写的答案,并在晚上一起唱卡拉 OK。
在杰克逊维尔,夸西会见了大学教授、博士生、编剧和播客主持人。“我们连续工作了六个小时,然后喝了一杯酒。”
“每个人都对改进大型语言模型感到非常兴奋。但没有人谈论谁会因为我们从事这项工作而失去工作?”
讽刺的是,数十万人类正在为人工智能工作,只是为了让它表现得更好。当人工智能足够优秀时,这些苦力可能会成为最先被抛弃的群体。毕竟,如果人工智能能够自我生产和销售,为什么要依赖每小时 40 美元的“高学历苦力”呢?
或许进一步的问题是,贩卖人类劳动力用于AI的日子还能持续多久,这也是悬在Scale AI头上的一把剑。
评论(0)