不爽AI 偷推特数据!马斯克喊告微软,发生了什么?
文章来源:Web3团子
在此之前,AI 大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们噜羊毛「白嫖」数据了。
「现在是诉讼时间。」4 月20 日,推特被微软踢出其数字营销平台后,新掌门人马斯克立马发推回击称,微软用推特的数据做「非法训练」。这一怼,直接揭开了AI 大模型开发商与数据源的利益之争。
此前,在线社区论坛Reddit 与程序员社区Stack Overflow 先后宣布,将向使用平台API 训练数据的公司收费;环球音乐集团直接表示,将阻止AI 从其版权歌曲中抓取歌手的声音。
在此之前,AI 大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们噜羊毛「白嫖」数据了。
当推特将API 收费门槛摆在微软面前时,AI 大模型训练要给付的成本就不止芯片算力和研发算法的人才了,现在还要加上「为数据付费」。
马斯克直怼微软「非法训练」
「他们非法使用推特的数据进行训练。现在是诉讼时间。」4 月20 日,「宇宙顶流」马斯克直接在推特上明示要告微软。他以推特CEO 的身份亲自下场,以此直怼微软把推特踢出Microsoft Digital Marketing Center(微软数字营销中心)的做法。
这个「中心」是干嘛的呢?它其实是微软利用大数据和AI 技术开发的一个广告和营销的管理平台,聚合了包括推特、脸书、Ins 等海外所有主流的社交平台,方便企业主们在一个平台上完成广告和营销活动的推送,还能管理各种账号、分析推流数据。你刷微博、微信朋友圈时突然冒出的广告,就有类似微软这种工具的贡献。
微软这个数字营销中心能实现这些功能,很重要的一环是接入了这些社交平台的API,这是企业主推送广告、分析数据的基础。
结果,马斯克收购推特后,直接把推特API 的企业套餐初始订阅费用定为4.2 万美元/ 月,折合人民币28.9 万元,以这个价格能获得2,500 万条推文,一条差不多1 块多钱了。如果每月支付12.5 万美元,能获得1 亿条推文,后续还会按照使用量加钱。
推特API 的新收费标准直接劝退了不少小公司,连财大气粗的微软数字营销中心都直言「要价太高」,于是,直接把推特踢出了管理库。这意味着,借助微软这个平台执行广告和营销计划的广告主们,没法在推特上搞投放了。
原本这是企业主、分发平台、渠道商之间的广告业内事,马斯克跳出来了,直指微软用推特的数据搞非法训练。
谁都知道,爆火的ChatGPT 背后有微软的资本加持。而马斯克和GPT 大模型的开发方OpenAI 不仅渊源颇深,还积怨许久。
2015 年,马斯克与Sam Altman 等6 人共同创立OpenAI 人工智能实验室,致力于建设开源的、研发人工智能的非营利机构,来抗衡当时在人工智能领域大有一家独大之势的谷歌。为此,马斯克捐了1 亿美元,承诺未来继续捐9 亿。结果不到2 年,马斯克就退出了OpenAI 董事会,这里既有烧钱开发大模型短期没烧出成果的问题,也有马斯克和Altman 对OpenAI 的管理权之争。
马斯克退出1 年后,即2019 年3 月,OpenAI 成立子公司OpenLP,将其定位为「有限营利机构」,重组后的OpenAI 很快拿到了来自微软的10 亿美元投资。谁也没想到又一个3 年过去后, OpenAI 站上了全球科技舞台的最前沿。
ChatGPT 爆火后,当初为OpenAI 掏过钱、站过台的马斯克频频表达怨念。
2 月17 日,马斯克发推指称OpenAI 从开源、非营利变成了微软控制的「闭源、追求利益最大化」的公司;后来还多次在公开场合强调人工智能对人类社会的潜在危害,甚至认为「风险比飞机、汽车、毒品更大」;3 月29 日,那封科技大佬联署签名「暂停AI 巨型实验」的公开信上,他也第一时间签名表态。
马斯克为人工智能的健康发展操碎了心,看上去,这位将巨型载人飞船送入太空的现实版「钢铁侠」似乎不打算跟风人工智能了。
然而,4 月17 日,马斯克在媒体采访中披露,将推出一款生成式AI 大模型TruthGPT。很快就有媒体爆料,马斯克买了1 万个英伟达A100 芯片。这是AI 大模型训练的重要硬件。
撕微软非法训练数据,怼OpenAI 变成逐利公司,无论马斯克如何批评这两家公司,这下也难掩他对人工智能的兴趣了。左手拦下推特数据低成本外流,右手高价囤芯片,在AI 大模型赛道上,马斯克开始跑马圈地。
多平台API 拟收费,AI 训练成本被推高
不过,最近要向AI 大模型开发商们收取API 费用的平台不止推特。
4 月18 日,海外最大的社区论坛Reddit 宣布,将向使用其API 做数据训练的公司收取数据使用费。
Reddit 暂未公布具体收费标准,业内推测,Reddit 很可能会按数据数量分等级收费,这也是业内的常规做法。此外,程序员问答网站Stack Overflow 也计划向AI 巨头收取训练数据费用。
要知道,研发AI 大模型,算法、算力和算据这「三算」缺一不可。以OpenAI 训练GPT-3.5 为例,这个模型容纳了多达45TB 的文本语料,这些语料既包括书籍期刊等出版物的内容,也包括社交平台、问答网站、论坛小组等在线数据中的用户生成内容。而从OpenAI 的公开信息看,该公司并没有提及获取线上数据是否支付过费用。用「爬虫」爬、和第三方合作、以及购买都有可能是OpenAI 获得数据的方式。
此前,各个生成式大模型似乎都在没啥限制地使用互联网上的公开内容,影响大模型性能的要素就集中在算法和算力差异上。从推特、Reddit 等平台明确为API 收费后,大模型开发商自在地使用数据的好日子到头了。
2019 年之前,OpenAI 是非营利机构,如今,ChatGPT 都有Plus 收费版了,更别提该公司还开通了API 的付费渠道。当前,OpenAI 的估值接近300 亿美元,研究机构PitchBook 预测,该公司今年的收入将达到2 亿美元,明年会翻五番。
社交平台们明确API 收费,剑指大模型开发商,双方也正式变成了「商业对商业」的关系,收费与付费实属正常。这也意味着,AI 大模型成为科技巨头们狂卷的赛道后,像Reddit 这样的海量内容平台将增加商业来源,数据将成为重要要素。
以成立于2008 年的Reddit 为例,它是全球互联网中最有活力的社区之一,目前日活达到3.3 亿,大量的用户创建了超过14 万个活跃社区,帖子总量超3.6 亿。尤其在很多小众领域,Reddit 论坛贡献了很多有价值的讨论内容。换句话说,Reddit 提供了英语互联网中最重要的语料库。
OpenAI 的CEO Sam Altman 也表示,公司在积极与内容公司进行合作,并愿意「为高质量数据支付高价」。
尽管Altman 宣称「目前没在训练GPT-5」,但OpenAI 应该不会停下数据训练的脚步,因为GPT-4 仍有很多需要打磨的地方,比如通识知识的准确性、对人类语言的理解进化等等,这些仍然需要语料数据的持续投入。
放眼全球,研究AI 大模型的公司还不止OpenAI 一家,海外有谷歌,国内有百度、华为、阿里。可以预见,切入大模型赛道的公司,都将面对数据所有者的收费关卡,训练成本将水涨船高。
另一个值得深思的问题是,Twitter 也好,Reddit 也罢,他们手握数据向大模型开发公司收取价格不菲的费用,那么,为这些平台贡献了海量内容和数据的用户又得到了什么?