不只是聊天机器人:一文梳理 ChatGPT 带来的真正影响_GPT:CATGE币

作者:JackyLiang

编译:DeFi之道Wendy

自OpenAI发布ChatGPT以来,已经过去几个月的时间了。这个基于大型语言模型的聊天机器人不仅让许多AI研究员大开眼界,还让大众见识到了AI的力量。简而言之,ChatGPT是一个可以响应人类指令的聊天机器人,可以完成从写文章、作诗到解释和调试代码的任务。该聊天机器人显示出令人印象深刻的推理能力,其表现明显优于先前的语言模型。

在这篇文章中,我将从个人角度出发,聊聊ChatGPT对三类人的影响:分别是AI研究员、技术开发人员和普通大众。在文章中,我将推测ChatGPT等技术的影响,并简单聊聊我认为可能发生的一些情况。这篇文章更倾向于发表个人观点,而不是基于事实的报告,所以对这些观点要持谨慎态度。那么,让我们开始吧……

ChatGPT之于AI研究员

对我这个AI研究员来说,从ChatGPT上学到的最重要的一课是:管理人类反馈对于提高大型语言模型(LLM)的性能非常重要。ChatGPT改变了我,我猜也改变了许多研究人员对大型语言模型AI对齐问题的看法,我具体解释一下。

图:LLM的强化学习与人的反馈

在ChatGPT问世之前,我想当然地认为,当涉及到LLM时,我们面临着两个不同的问题。1)提高LLM在某些基于语言的任务中的表现,同时2)避免有害的/破坏性的/有偏见的文本生成。我认为这两个目标是相关但独立的,并将第二个问题称为对齐问题。我从ChatGPT中了解到,对齐和任务表现其实是同一个问题,将LLM的输出与人类的意图对齐,既能减少有害内容,也能提高任务表现。

为了更方便理解,这里给出一些背景信息:我们可以将现代的LLM训练分为两个步骤。

第一步:神经网络模型的自监督学习,在给定前一批单词序列的情况下预测下一个单词——这是在一个非常大的、互联网规模的数据集上训练的。

第二步:通过各种技术使LLM的生成与人类的偏好保持一致,比如在高质量的指令遵循文本的小数据集上微调LLM,并使用强化学习来微调LLM与预测人类偏好的学习奖励模型。

在ChatGPT身上,OpenAI很可能使用了许多不同的技术,相互配合来产生最终的模型。另外,OpenAI似乎能够快速回应网上关于模型出错的投诉,有时甚至在几天内就能完成,所以他们也一定有办法修改/过滤模型的生成,而无需重新训练/微调模型。

ChatGPT标志着强化学习的悄然回归。简而言之,有人类反馈的强化学习首先训练一个奖励模型,预测人类会给某一LLM生成内容打多高的分数,然后使用这个奖励模型通过RL来改善LLM。

我不会在这里过多地讨论RL,但OpenAI历来以其RL能力而闻名,他们写的OpenAIgym启动了RL研究,训练RL代理玩DoTA,并以在数百万年的模拟数据上使用RL训练机器人玩魔方而闻名。在OpenAI解散其机器人团队之后,RL似乎逐渐被OpenAI所遗忘,因为它在生成模型方面的成就主要来自于自我监督学习。ChatGPT的成功依赖于RLHF,它使人们重新关注RL作为改进LLM的实用方法。

图:AI专家预测ChatGPT的运行成本

ChatGPT的到来还证明了一点:学术界开发大规模AI功能将越来越困难。虽然这个问题在整个深度学习时代都可能出现,但ChatGPT使它变得更加根深蒂固。不仅训练基本的GPT-3模型对小型实验室来说遥不可及,而且ChatGPT的数据收集和RL微调管道可能对学术实验室造成过大的系统/工程负担。

将ChatGPT免费提供给公众,可以让OpenAI收集更多宝贵的训练数据,这些数据对其未来的LLM改进至关重要。这样一来,公开托管ChatGPT实质上是OpenAI的大规模数据收集工作,而这不是小型组织能够承担的。

开源和与HuggingFace和Stability等公司在学术上的大规模合作可能是学术界目前前进的方式,但这些组织总是比拥有更大预算的小团队前进得慢。我推测,当涉及到最先进的语言模型时,开源通常会滞后于这些公司几个月到一年。

我认为学术界可能扳回一成的唯一方法是,是否有国家级的计算云专门用于学术AI研究。这无疑将花费数十亿美元,需要专门的行政和工程人员。这并非毫无可能——它将类似于詹姆斯?韦伯太空望远镜和大型强子对撞机。在美国,一些人已经在呼吁建立国家AI云,进行LLM推理,但训练和微调LLM和其他基础模型的能力也同样重要。鉴于AI国家战略重要性,我们可能会在不久的将来真正看到这个方向的发展。

同时,AI研究员并不总是要训练大模型才能产生大影响。我的看法是,与其争夺下一个最大最好的LLM,较小的学术实验室可以专注于改善现有LLM的使用,分析它们的优势和劣势,并利用有些公司以非常低的成本托管这些非常强大的LLM的事实。例如,可以利用OpenAI和其他公司的现有LLMAPI来进行LLM对齐的研究,而不需要学术实验室从头开始训练这些模型。对强大的LLM的低成本和公开的访问使得一整套公开的研究能够发现LLM的新能力和应用。

ChatGPT之于技术从业者

对于那些在技术领域工作和开发产品的人来说,ChatGPT和类似的代码编写模型呈现出显著的一阶和二阶效应。对于程序员来说,使用基于AI的代码补全和ChatGPT风格的问答来学习编码和理解现有的代码库将成为软件工程工作中不可或缺的一部分。我推测,在未来的一年内,许多大学将开设计算机科学课程,教授在软件工程等应用中利用AI的最佳实践。

ChatGPT和更强大的AI代码辅助将迫使软件工程师对其操作的抽象级别进行根本性的重新制定。大多数软件工程师不需要推理低级机器代码,因为我们有非常强大的编译器,可以将人类可读的代码转换为机器可读的代码。软件工程师可以学习这些编译器的内部工作原理,以及如何编写最充分利用这些编译器特点和优势的代码,但他们自己不需要编写机器代码,也不需要编写自己的编译器。

编码AI很可能会成为新的“编译器”,将高级额人类指令转换为低级代码,但是在更高的抽象级别上。未来的软件工程师可能会编写高级文档、需求和伪代码,他们会要求AI编码员编写今天人们编写的中级代码。通过这种方式,我不认为软件工程师会被AI取代,而是被推到价值链的上游。未来,熟练掌握这项技能的软件工程师可能需要了解不同编码AI的优缺点,以及如何针对特定的应用领域最好地构建和修改AI。

以上是一阶效应,ChatGPT直接影响到技术从业者,特别是软件工程师的工作方式。对技术产品所能提供的东西的二阶影响可能会更深远。ChatGPT和类似的LLM通过1)释放全新的能力和2)降低现有能力的成本,使其突然具有经济意义,从而使新产品成为可能。

图:机器人在自然语言中执行新任务

上述第一点的一个例子是,现在我们可以通过简单地让AI编码员将语言指令翻译成调用该软件API的代码,为任何软件添加自然语言用户界面。以一种可信赖的和可泛化的方式来做这件事将需要大量的努力,就像发布真正的产品一样,魔鬼就在细节中。尽管如此,这是一种彻头彻尾的新能力,我猜测自然语言软件UI会在所有的软件平台上爆发,尤其是在那些传统用户界面感到笨重和不方便的平台上。老实说,很难想象在LLM时代开发一款新应用而不包含一个基于语言的用户界面会怎么样。入门的门槛很低,如果你不这样做,你的竞争对手就会这样做,而且会提供更好的用户体验。

降低现有能力的成本听起来不像解锁新能力那么有吸引力,但它同样重要。LLM可能存在很多有前景的应用,但为这些下游任务微调LLM的成本可能太高,不值得投资。有了ChatGPT和改进的指令跟踪,开发者可能不再需要收集大量的数据集来进行微调,而只需要依靠zero-shot性能。预计在许多处理文本输入的现有应用中,基于文本的分类、摘要和内联预测功能将出现大量的“小规模”LLM部署。这些对用户体验的边际改善在以前可能投资回报比很低,但现在却突然值得了。

低成本也意味着在应用LLM和其他基础模型的业务上有很多唾手可得的成果,通过良好的UI/UX、现有软件产品内的集成以及有效的进入市场和货币化战略为消费者创造价值。Lensa是一个能满足所有这些条件的例子。LLM部署的这些更实际的方面往往会超过底层模型的绝对性能,成功的初创公司总是可以将旧的LLM与新的改进版本交换。这也意味着,那些应用LLM的人不应该把他们的技术栈与特定LLM的特性绑得太紧。LLM的快速改进周期,加上可公开访问的API,以及关键的商业差异化因素不是模型本身,这可能意味着LLMs将被商品化。

未来将有两种类型的科技公司能够继续向前发展——能够负担得起培训和运行自己的基础模型的公司,以及负担不起的公司,后者需要向前者支付基础模型税。这听起来很有戏剧性,但它与我们今天的情况没有什么不同,技术公司要么托管自己的服务器,要么向AWS/Azure/GCP交税。AI云业务将是未来云平台的一个关键战场,并将给竞争对手提供超越现有企业的机会。例如,凭借微软的经验和与OpenAI的结合,Azure很有可能凭借其AI云产品超越其他公司。

图:GPU性能的增长速度远远快于CPU性能

最后,从一个更具推测性的角度来看,基于深度学习的基础模型可能会让我们在相当长一段时间内避免摩尔定律放缓带来的负面后果。随着这些模型的能力越来越强,它们将接管越来越多由传统软件完成的任务,这意味着越来越多的软件将可以通过仅仅优化神经网络的性能而得到优化。神经网络在GPU和特定应用的芯片上运行,其性能的提高并没有看到传统CPU改进的明显减速,这大致可以在摩尔定律的减速中体现出来。我们真的很幸运,有一个单一的神经网络架构,即Transformer,它可以代表通用计算,并经过训练,可以很好地执行这么多不同的任务。我们还没有接近优化Transformer性能的终点,所以我期望随着LLM变得更加强大并取代更复杂的传统软件堆栈,计算机会变得更快。

ChatGPT之于大众

视频?:耶鲁大学评ChatGPT,更多是资源,而并非学习的替代品

ChatGPT是许多普通大众可以直接与之互动的第一项AI技术。当然,在ChatGPT之前,有Siri和Alexa,而且深度学习应用在许多商业应用中已经无处不在了。不同的是,以前部署的AI技术往往都在后台工作,通过传统软件和有限的用户界面层层"过滤"。公众通过ChatGPT对AI有了更直接的体验,用户可以直接向LLM输入,并直接看到它的输出。ChatGPT也明显比以前的聊天机器人更强大。再加上该服务目前一直是免费的,这些因素将ChatGPT推向了主流世界的讨论热潮。

相对以前,这种和AI的亲密接触让公众对AI的新奇和炒作有了更真实的体验。我可以想象,突然之间,对于那些不熟悉LLM工作原理的人来说,聊天机器人可能具有意识的说法听起来并不太牵强。这也反映出了一个问题,当涉及到AI的问题时,科学传播的缺失——我认为AI界在向公众宣传和普及AI如何工作、能做什么、不能做什么,以及如何负责任地使用AI技术方面做的非常差。见鬼,我们甚至都不能确定技术从业者了解LLM的基本知识,更不用说普通民众了,他们才是受这项技术影响的终端用户。在接下来的几年里,如果继续不对AI进行教育和沟通,可能会面临灾难性的后果,因为类似ChatGPT的模型会在没有适当预防措施的情况下进入关键任务的应用。

或者,从某种意义上说,让人们了解一项新技术的最好方法可能是让公众公开地试验这项技术及其应用,体验它的失败,并反复辩论和改进一些流行的观点。这一波基础模型的可用性,尤其是ChatGPT开创的免费使用的先例,可以让公众通过亲身体验更了解AI,反过来引发更明智的理解和讨论。

DALL-E2是第一个真正优秀的文本到图像生成模型,发布仅仅几个月后,我们就已经看到了来自公司和社区的一系列不同的政策反应,试图适应这种新的现实,从完全禁止AI艺术到纳入AI艺术图片的销售。对于ChatGPT,一些学术会议禁止它的使用,而也有学者则将其列为合著者。围绕生成式AI也有不少正在进行的诉讼。目前还不清楚使用这些模型的法律和道德方式是什么,但很明显,这些围绕AI使用政策的小规模实验对于公众弄清楚这些事真的很重要。我个人认为这是一个很好的方向,因为我相信公共政策应该由公众讨论决定,而不是由任何一个托管这些模型的特定科技公司不清不楚的委员会决定。

图:新技术的采用需要时间,尽管随着时间的推移,采用速度越来越快

关于ChatGPT和类似基础模型的应用的最后一个想法——技术部署总是比技术创新需要更长的时间,虽然人们可以在一个周末的时间建立令人印象深刻的LLM演示,但仍然需要大量的工作和试错来建立可靠、可扩展的产品,为消费者带来价值。在科技领域,我们可能会在2023年看到生成式AI应用的海啸,但我预计这些应用在公众中的传播速度会慢得多。有许多因素会减缓大规模生成式AI的采用——现有系统和产品的惯性,对AI取代人类的认知的文化障碍,运行AI的成本在很多应用中可能没有意义,LLM输出的不可靠性和可信度,以及扩大LLM计算基础设施以实时服务数十亿次的查询。这些挑战都不会在一夜之间,甚至在几个月内被克服。但它们最终会被克服,而5年后的世界将看起来非常不同。

未来如何?

如果说在过去10年的深度学习中我们学到了什么,那就是真的很难对AI做出准确的预测,包括它的发展和部署。然而,我可以自信地说,ChatGPT只是未来的一个小预告。对于基础模型的未来,我在两个方向上看到了有前景的进展,我认为在今年或明年会有突破性进展:1)真正多模态的ChatGPT级基础模型,以及2)被设计用于在环境中采取行动的基础模型。

图:与其训练理解视觉和文本的独立模型,较新的模型可以直接理解图片中呈现的文本

对于1),想象一个类似ChatGPT的界面,但你不仅可以上传文本,还可以上传音频、图像、视频、3D模型以及其他结构化文件,并让它"理解"、分析、处理和生成这些内容。这样的技术如今已经存在,将所有这些模式整合到一个模型中似乎很简单。

对于2),在不久的将来,拥有一个基础模型,能够通过键盘和鼠标与计算机进行可靠的互动,以执行人类今天的许多日常任务,似乎是合理的。有一些证据表明这是可行的,从瞄准机器人过程自动化的初创公司到试图训练AI代理完成Minecraft中的开放式目标的研究人员。为物理机器人而不是虚拟代理开发这种面向动作的基础模型将更加困难,但进展已经在进行中。

图:一种语言模型,可以将自然语言指令转换为与Web端浏览器交互的动作

关于商业化,一方面,科技巨头有能力利用他们庞大的计算资源来训练真正强大的模型。但另一方面,公共/开源模型也将变得非常流行/易于使用,所以我不确定拥有自己的模型对很多应用来说是一个很大的优势。如前所述,基础模型很可能会被商品化。因此,对于已经拥有设备/操作系统的大型科技公司来说,开发适合LLM的平台,允许其他人使用基础模型,并在上面建立新的应用,而不是直接与其竞争建立这些应用,这么做才是合理的。

最后,展望未来,我们可能会在未来5年内告别"从互联网上获取免费数据"的制度,它真正推动了最近基础模型的进展。虽然定制数据总是需要用于特定领域的微调/校准,但用大规模的"免费"数据预训练强大的模型无疑导致了GPT和类似模型的成功。看社区如何超越仅仅搜刮现有的数字数据来提高基础模型的性能,这将是很有趣的。可以肯定的是,我们仍然会通过更好的训练和对齐技术来改进模型,但大规模自我监督学习的下一个前沿是什么?下一个10万亿或100万亿的数据点从何而来?我很想知道。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金宝趣谈

[0:15ms0-6:553ms