NGC Ventures:9月了,现在的AI还值得创业吗?
原文作者: Cherry , NGC Ventures
前言
本文初稿于八月底休息日摸鱼之余完成,草率发布后受到了诸多指教,笔者遂增改删了一部分内容,以免贻笑大方。
本文的内容主要是站在投资视角对 AI 行业的现状进行评价、对不同公司的技术/产品路线进行反思和猜想、对 AI 行业公司的战略进行抽象总结。因此,涉及到具体技术的部分,难免有疏漏,还请多包涵。
不过说到底,能发论文的几家大公司还撕的不可开交,似乎也没人能评价本文内容的正误。就像用 GPT-4 给 GPT-3.5 打分一样,看起来合理,仔细想想是有点抽象的。
因此笔者建议,将本文视为对不确定性行业的信息搜集后形成的“判断”。既然是判断,立场必须鲜明,必须言之有物。至于判断到底对不对,就留给时间检验吧。
笔者始终认为:新行业噪音大,多动脑、敢于下判断总是没错的。对于判断题,盲猜的正确率是 50% ,而连续猜错三次的概率是 12.5% ,哪怕是扔硬币级别的下判断,也是有意义的。下判断并不可怕,判断准确率低于扔硬币才是最可怕的。
在正式开启本文之前,需要感谢以下工作,为本文提供了宝贵的灵感和数据源。当然,由于本文有许多推论都是基于这些工作,如果其中包含错误、或笔者理解有误,本文的推论也将不再稳健,请读者自行甄别。本文不构成投资建议,也很难构成投资建议。
-
Chain -of- Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance(https://arxiv.org/abs/2305.17306)
-
LIMA: Less Is More for Alignment(https://arxiv.org/abs/2305.11206)
-
June 2023, A Stage Review of Instruction Tuning(https://yaofu.notion.site/June-2023-A-Stage-Review-of-Instruction-Tuning-f59dbfc36e2d4e12a33443bd6b2012c2)
-
GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE(https://www.semianalysis.com/p/gpt-4-architecture-infrastructure)
好了,让我们正式开始本文。
大模型:发射赛博火箭
2023 年讨论 AI 的第一步,就是讨论大模型创业到底还能不能做。
大模型(的预训练)目前已经转化成了发射火箭问题,只要烧的起、方向对,谁都能做。可以说,训练大模型就是在发射赛博火箭。
一个反常识的事情是,投资人对大模型训练的难度是低估的,而对发射真火箭的难度是高估的。同样是 6000 万美元的成本,投资人会觉得火箭升空失败还可以有第二次机会,而训练大模型失败则被认为是浪费资金。
GPT-4 在 OpenAI 的 GPU 利用效率(爆料称约等于 30% )上,仍然消耗了 6000 万美元。这是一个{性能=效率×成本}的问题,而性能是道墙,如果其他的初创公司不能实现大于 30% × 6000 万= 1800 万美元的性能效果,则用户不如直接用 GPT-4 。
目前,许多号称训练大模型的公司的融资轮次在 100 万到 500 万美元这个区间。也就是说,即使是最大融资额的公司,其弹药量也只足够支持一次发射。而这次发射的 GPU 利用率即使达到了 100% ,也很难超过 GPT-4 。
从这个角度来说,发射火箭是更好做的,因为目前大部分火箭都是运载火箭,带着卫星上天,而单次负载量有限,所以小的火箭公司可以接别人来不及发射的卫星单。
大模型则不同,大模型的横向扩展的边际成本只有算力成本,而算力成本可以是弹性扩张的,也就意味着对于大模型公司来说,每一单的利润都是白捡的利润,几乎不用付出额外成本,承接能力非常大。对于新成立的、质量差的大模型公司来说,很难接到溢出的需求。
除非训练成本大幅度下降,否则即使知道了 GPT-4 的全部架构,许多公司短期也很难做出可投入市场的大模型。
定制化:直面“赢家通吃”问题
在硬件行业,一种常见的现象是通过定制化需求来实现早期的利润,再通过早期利润实现技术突破(或者追平)。然而大模型行业的定制化很难成为新进者的出路。
关于这个判断,解释起来非常简单:绝大多数微调后的模型追不上 GPT-4 ,即使追上了,直接使用 GPT-4 泛化的成本更低、人员需求更少、运气需求更少、数据需求更少。只要 GPT-4 和其他模型的断档级性能差距还存在,定制化就不能成为大模型公司的出路。
一个非常典型的例子是 Jasper,使用微调的 GPT-3 服务企业客户,然而在 OpenAI 公开了 ChatGPT(GPT-3.5)之后,其用户迅速流失。因为 Jasper 的产出物可以通过为 GPT-3.5 输入简单的 prompt 来得到,而无需使用一个泛化能力差和仅限企业内部使用的“落后版本”。
相比于新公司,Jasper 至少还有一个 GPT-3 到 GPT-3.5 的空窗期用来发展。然而现在的新公司需要同时面对低成本高速度的 GPT-3.5 和高性能的 GPT-4 的挤压。
因此,寄希望于通过定制化积累利润从而实现技术突破的路线,生存概率很低。
微调:必要,别迷信
目前的 AI 行业对微调有一种不合实际的期待,这种期待从具体的技术实现和从宏观的技术节奏来说,都是过于高估的。
行业目前所讨论的微调,绝大多数指“在预训练模型的基础上,使其生成符合人类意图的回答”。这种微调可以称为“对齐”,也就是让回答对齐人类意图,而不是为大模型增智慧。
根据多篇论文的研究结果,大模型的知识应该主要来自预训练,而微调更多用在对齐上。
简单解释就是,预训练决定脑容量,微调决定母语。为预训练模型进行微调,是一个“扫除文盲”的过程。
然而,目前行业中经常将微调视为一种为模型“增智慧”的方法,也就是通过微调提高模型性能、增加模型知识,认为这样就可以抵达“人工智能的圣杯”。这种思路是有些偏颇的。
首先,模型本身的性能并没有提高,只是能更好地对齐人类意图,如果任务的复杂度超过了模型的性能,微调并不能收获如期的结果。就像是让人脑进行量子运算一样,做不到不是教育的问题。
其次,在“意图对齐”的部分进行“知识补充”,效果更类似于“鹦鹉学舌”。即:模型只是模仿专家说话,而并没有理解其中的含义。尽管很多行业用“鹦鹉学舌”已经能得到很好的方案(毕竟大多数行业都不复杂嘛...),但这显然不是我们应当在长期追求的结果。
最后,对于“补充额外数据集,提高模型性能,增加模型知识”的训练,应当被视为模型具有“增量学习/持续学习”的能力,即:模型的全参数可以通过增量数据集进行优化。这和所谓的“指令微调”并非同一个范畴的概念。
总的来说,微调是非常重要的,但对当下的微调报以“迷信”的态度是错误的,特别是急于将当下的微调封为圣杯的言论,颇有一种“如今物理学的大厦上只飘着两朵乌云”的意味。
退一步讲,如果“增智慧”的需求真的可以通过指令微调来解决,做个简单的向量搜索、直接把知识塞上下文里、再简单写几个 prompt 模板,大概率能有一样甚至更好的效果。
大家都喜欢微调,可能也是炼丹技艺在现代的一种复兴吧...
大模型展望:四则运算
(注意,此部分内容完全基于 Dylan Patel 爆料的数据,可靠性暂无法验证)
GPT-4 的训练基于 N 卡的 A 系列,训练效率 30% ,训练时间大约 2 个月,成本约 6000 万,总参数量为{ 1.7 万亿= 1100 亿× 16 个专家模型},处理单个问题的参数在 2800 亿左右。
也就是说,有几个关键参数,会导致大模型训练的格局发生变化。
-
训练效率:从 30% 提高到 60% 可以直接缩短一倍时间
-
算力密集度提高:从 A 系列换成 H 系列再换成 AI 专用卡后,算力密集度提高,很多架构上影响效率的问题都可以解决
-
算力成本下降:老黄(Nvidia 创始人)给显卡打折,显著的成本下降
-
参数效率提高:模型的参数效率存在提高空间,参考以往新模型对老模型的参数效率通常能提高多倍,可能使用 GPT-4 的 30% 的参数就可以达到类似的效果
综上所述,从零训练出 GPT-4 级别性能的模型的成本可能有 10 ~ 20 倍的优化空间,也就是压缩到 300 万美元~ 600 万美元,这个成本对于初创公司和大公司费控而言,都是更容易接受的。
而这个变化,可能需要 2 年左右的时间来完成。
目前,主流大模型的技术仍然基于 transformer,基础架构没有变化,炼丹加参数的大力出奇迹思路仍未穷尽。GPT-4 的训练在算力限制很大的基础上进行,且训练时间不够长。
如果参数是随训练时间线性增长的,类似于 GPT-4 的架构的模型的参数上限可能是 10 万亿左右,即:训练时间多一倍(× 2),并行显卡多一倍(× 2),训练效率快一半(× 1.5),参数效率高一半(× 1.5),最终得到十倍的结果。按照硅谷的风险偏好风格,这个参数量大概率会在一年内达到,无关乎性能到底有没有提高。
然而在达到 10 万亿参数后,LLM 是否还能使用增加参数的思路大力出奇迹,就是一件完全未知的事情了。
如果参数量对模型性能的提升是边际递减的,则 10 万亿很可能是个坎。然而,也有一种猜想是参数量对模型性能的提升是边际递增的,类似于“一个人如果足够聪明则学什么都快”。前者还好,假如后者成真了,模型性能可能会发生指数级提高,届时发生什么将完全无法预测。
预测炼丹很难,但预测企业战略节奏很容易。总参数 10 万亿的模型对于绝大多数企业,无论是 Google /MS/APPL 这种巨无霸,还是小一点的 OpenAI,都是一个里程碑级别的终点,是可以停一停、做些技术探索的位置。
企业/资本对于风险的偏好可以折算成一个“忍受时间”,如果整个忍受时间都在剧烈燃烧费用,则很难超过 6 个月。人类的工艺成长速度不够快,通常以 5 年甚至更长时间为一个周期。因此,在 5 年内,模型的极限参数量是可以估计出来的,应当是 20 万亿~ 50 万亿。除非再次发生工艺/架构上的巨大突破,否则,超过这个数量级的概率很低。
多模态:房间里的大象
多模态是房间里的大象,可能会深刻影响到赛道的格局。
多模态的简单定义是:支持对多种模态信息的输入和输出。这个定义很松,比如市面上一些宣称自己能够进行多模态输入的产品,其实是 ChatBot 外面套了一层 OCR。也有完全符合多模态定义的模型,但其性能就让人不敢恭维了。就连 GPT-4 的图像多模态输入能力也还没有大范围开放,可以看出这个功能并不是很稳定。
不过,多模态的发布并不是一件遥远的事情。GPT-5 大概率是原生支持多模态的,也就是需要重新设计结构、重新训练。而根据前文的推理,大模型的参数还有 10 倍~ 50 倍的成长空间,在其中放入多模态能力,应该是足够的。因此,可以预计,高可用高性能的多模态模型会在 2 年内出现,乐观点的话, 1 年差不多了。
多模态是房间里的大象,大家都知道最终会有这样的东西,但很多产品/研究/战略都忽视了其存在,以至于在关键部分存在误判。
例如,单一图像模型理论上会受到多模态模型的严重压迫,但目前大多数研究/投资都忽视了这个问题,导致给一些专注于图像模型的公司过高的估值。这些公司未来很可能会失去技术壁垒、转型成服务商,其估值体系应当参考服务提供商、而不是技术公司。
如果要讲“投资看人,同一个团队可以做业务转型”的故事,就当我没说。传奇总是在的,但做研究不能笃信传奇。
谁能训练 GPT-4 :都能,但没必要
炼丹不需要那么久,且大公司都在买显卡。一个非常显而易见的事情是,一年后,大型公司都会有能力训练 GPT-4 级别的模型。不过到底要不要训练,就是另一个问题了。
在游戏领域,有一个经典的命题叫做“有原神玩原神”,即:当玩家可以选择玩原神或者一款原神的竞品时,如果竞品做的不如原神好,则玩原神。
这种“赢家通吃”的思路同样适用于大模型行业。如果一家公司紧随 OpenAI 之后,经过半年的研发,推出了自己的媲美 GPT-4 的 90% 的性能的大模型,希望推向市场。此时,该公司会面临如下问题:
-
OpenAI 存在云资源的规模优势,成本更低
-
OpenAI 的 API 已经在产品代码里大量使用,更换难度大
-
该公司的产品性能仍然没有超过 GPT-4
-
OpenAI 的次世代产品(可能是 GPT-5)即将发布
可以看出,该公司的压力是相当大的。比起训练 GPT-4 ,还不如直接押注次世代模型(对标 GPT-5)。然后问题就会从“同类竞品问题”转换成“技术创新问题”。这是小公司难以承受之重。
因此,讨论“谁能训练 GPT-4 ”是一个战略上的死题,比起思考这个问题,不如找找更有确定性、更有机会的方向。
给 AI 初创公司的建议:性能为先,避免停留
笔者曾经撰写过多篇文章吐槽 langchain,其根本原因是 langchain 的没给开发者留提高性能的空间。美其名曰“通用性框架”,为了保证通用性,舍弃了很多大模型的性能提高空间,例如多轮对话和微调实现的格式控制。类似的还有 guidance/ Auto -GPT/BabyAGI 等,都想做“能用一辈子的框架”。
一个客观事实是,OpenAI 在 5 月份发布了 Function Calling,很多代码中麻烦的地方都有了更好的实现方案,而实现更好方案的代价就是重构产品代码的关键部分。8 月份,OpenAI 又发布了微调 GPT-3.5 的权限,很多需要精准控制输出的环节又有了新的潜在方案。
因此,初创公司必须面对一个关键选项:是选择①提高性能、不停重构产品,还是②减少使用新特性、始终使用老特性进行开发?
对于新技术应用的创业,“开发”不仅仅代表着写代码的过程,也代表产品功能/战略方面的“上限”。可以驾驭的性能越高,产品的理论功能越多、战略灵活性越高。
技术的发展无法预测,而微小的技术革新可能带来高度敏感的竞争格局变化,初创公司对技术的发展应当具有反脆弱的能力。
——说人话就是:性能优先,避免停留。开发层面,多用新特性;产品方面,思考新特性能做什么功能;战略方面,考虑到新特性对战略的影响。
《过秦论》中,曾提到秦朝在建立之后收缴了天下的金属兵器,将其铸成了十二个铜人,来消灭民间起义的可能性。但秦朝是出了名的短命王朝。比起无视变化,还是重视变化更有利些。
给 AI 初创公司的建议:放心做应用
初创公司做应用有一个非常常见的隐患:大公司入场。这里的大公司不仅包括应用巨无霸,例如 Meta /字节/腾讯等,也包括 AI 行业的上游,如 OpenAI。
大公司入场的原因通常有两个:布局产品机会,以及上游切下游。
“布局产品机会”是字面含义,大公司觉得这个方向值得做,于是做了。
“上游切下游”多是无奈之举,可能是因为自己研发了对标 OpenAI 的大模型,但因为大模型赢家通吃的问题,没有用户,导致烧费用、没营收、没数据,进而导致性能逐渐落后。此时,切入下游、开发具体的应用、使用自己的技术,是唯一选项。
根据历史经验,由于组织架构的问题,公司越贴近下游、技术越容易落后,而技术越落后、越不得不做下游。这些所谓的技术公司最后会和应用层公司抢夺同一个生态位。
但是,在应用层的战场里,由于 AI 技术出现时间很短,并没有行之有效、可复用的规模优势,大公司和初创公司的起点差不多。比起大公司,初创公司的效率高、洞察深,更容易占据优势。
一个值得注意的情况是,MS Azure 现在几乎所有宣传材料都是围绕 OpenAI 展开的,微软这么大的厂子却要完全依靠 OpenAI 作为自己的台面,从侧面证明初创公司在 AI 领域有天然优势。
当然,某些云厂商可能无法接受被初创公司牵头,要自己吃掉所有市场。其成本高昂、速度缓慢,并不是近在眼前的威胁。
事实是,确实有一些 AI 应用的赛道非常短命,但还有很多长命赛道没被发掘出来,AI 的应用也并非赢家通吃。从应用延伸到平台或技术,也是更加可行的通路。
因此,我们应该理性看待大公司侵入应用层的能力。我们的建议是,AI 初创公司可以放心做应用。
给 AI 初创公司的建议:注意产品生命线
前文提到,AI 初创公司可以放心做应用,但要考虑到 AI 模型的性能问题,避免停留。这种状况,直接表现为 AI 产品可能在数个月内失去需求基础、并逐渐凋零,而这种情况可能是频繁发生的。
AI 应用需要使用大模型的服务,大模型的性能不断提高。这种提高不是“速度”等单一维度的改善,而是输出质量、输出长度、输出控制性等全方面的改变。每一次技术的显著升级都会导致已有应用层产品的技术落后,并创造出新的机会和竞争对手。
我们将 AI 应用在战略/产品/技术上保有优势和必要性的时间称为“生命线”。
以下是一些生命线较短的例子:
-
当 ChatGPT/Claude 支持文件上传后,ChatPDF 失去必要性
-
当 Office 365 支持 Copilot 后,使用 AI 画 PPT 的产品失去优势
-
当 GPT-3.5 出现后,Jasper 失去必要性
考虑到 AI 行业的发展很快,生命线有限是常态。因此,接受生命线有限的事实,并尽量选择生命线较长的方向发展,有利于保持长久的优势和产品必要性。
一般地,可以将生命线简单划分为 3/6/12 个月的级别。
-
3 个月:大公司来不及做的功能(如 office/ChatGPT 还没来得及做的功能)
-
6 个月:有一定实现难度、无法融入既有方案,但优势/必要性会随 AI 性能提高而消失(如通用 AI 框架)
-
12 个月:优势/必要性能够长期存在,不易被大公司/技术发展影响(如 Hugging Face)
*平台类产品的生命周期并不一定长,毕竟 prompt 商店也是平台
初创公司在确定方向时只要有 6 个月级别的生命线就可以做了, 12 个月级别的生命线可遇不可求。
当产品生命线到尽头,一般有两种情况。第一种情况是优势消失,需要重构产品升级技术,请参考上文“性能为先”;第二种情况是必要性消失,产品将逐渐被取代,此时产品仍有数个月的“运营寿命”,足够初创公司选取下一个方向。
给 AI 初创公司的建议:Web3+AI 可以做
目前围绕Web3+AI 主题进行创业的项目已有很多,而考虑到技术发展的不确定性和市场的早期性,Web3+AI 的话题在未来还有诸多变数。
本文旨在于不确定性中寻找大概率正确的确定性,因此,笔者仍希望抛砖引玉,提出一些可能存在机会的题材和方向,供初创公司和感兴趣的研究者参考。
-
去主权化/去中心化
目前,AI 行业的领跑者只提供闭源模型,其持续提供服务的稳定性、透明性、中立性均不可控。去主权化/去中心化可能成为 AI 行业一个重要的题材,即:基于去主权化/去中心化的基本架构,提供稳定、透明、中立的 AI 服务。
去主权化/去中心化是一种“备选方案”,也是一种“震慑”,能够显著提高中心化/主权化的 AI 公司的不道德成本,阻止其将 AI 模型使用在军事、邪教、政治等方面。
而在极端情况中,一旦中心化/主权化 AI 服务因某些缘故不再可用/可信,去主权化/去中心化 AI 可持续提供高可用的服务,防止个别国家/地区乃至人类失去 AI 服务陷入瘫痪状态。
-
算力实用化
ETH 从 PoW 转向 PoS 的背后是遭人诟病的“挖矿不产生价值”的困境,而将Web3与 AI 结合,可提供算力实用化的场景,从而实现存量算力消化和推动总算力成长等效果。
-
虚拟资产化
AI 是原生于算力和存储上的资产,Web3与 AI 的结合可以提供将 AI 转化为虚拟资产的通道,在实现 AI 行业的价值实例化的同时,为Web3创造真正的原生虚拟资产。
-
Web3应用的变数
Web3与 AI 的结合可能为Web3应用带来新的功能点和成长机会,现有的Web3应用可以全部重做一遍。
写在最后: 9 月了,现在的 AI 还值得创业吗
先说结论:值得,且这个结论大概率可以沿用到过年。
人对状况的感知经常有偏差,笔者也不例外。有人过于乐观,有人过于悲观。笔者曾经与两个团队交流,一个团队认为自己明年Q1就能做出来 AI Agent,另一个团队则觉得 AI 只适合做些知识库管理的工作,显然前者过于乐观,而后者悲观过头了。
在做远景规划时,过于乐观和过于悲观都会掉到坑里,而广泛传播的言论又往往是这些偏差很大的言论,独立思考显得弥足珍贵。因此,不论读者是否能够接受本文的观点,只要读者在阅读过程中产生了独立的思考和判断,笔者就无比欣慰了。
最后,打个广告。如果你有好的 AI 创业想法,或者已经有成型的项目,欢迎随时与 NGC 的朋友们(比如我)交流。
Bitcoin Price Consolidates Below Resistance, Are Dips Still Supported?
Bitcoin Price Consolidates Below Resistance, Are Dips Still Supported?
XRP, Solana, Cardano, Shiba Inu Making Up for Lost Time as Big Whale Transaction Spikes Pop Up
XRP, Solana, Cardano, Shiba Inu Making Up for Lost Time as Big Whale Transaction Spikes Pop Up
Justin Sun suspected to have purchased $160m in Ethereum
Justin Sun suspected to have purchased $160m in Ethereum