一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化_比特币:LMS

原文作者：Tanya Malhotra

来源：Marktechpost

近年来，大型语言模型（Large Language Models，LLMs）在全世界受到了广泛赞赏，并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统（Intelligent Systems）。

诸如 GPT-3、T5、PaLM 等 LLMs 的性能有了显着提高，并且这些模型将继续存在，因为它们可以完成从通过学习阅读来模仿人类，到生成文本和总结长段落内容的所有工作。而根据一些深入的研究，如果 LLM 的规模很大，那么它的表现就会很好。通过在大量数据上训练这些模型，它们可以理解人类语言的语法、语义和语用学。

由 OpenAI 开发的流行的大型语言模型 ChatGPT 之所以发展得如此之快，正是因为采用了人类反馈强化学习（RLHF）等先进技术。通过 RLHF，机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的 LLM 进行了微调，用于开发聊天机器人、虚拟助手等任务。

此外，ChatGPT 等 LLMs 所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化：

1.实践证明，模型的扩展性（Scaling）对提高其性能很有帮助。以 Pathways 语言模型（Pathways Language Model，PaLM）为例，该模型通过扩展小样本学习（few-shot learning）大大影响了其性能，小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

通过使用 Pathways 语言模型在 6144 TPU v4 芯片上扩展和训练 5400 亿个参数，PaLM 展示了重复扩展的好处，其表现超过了各种传统模型，并显示出很大的进步。因此，深度和宽度的扩展都是提高基础模型性能的一个重要因素。

2.另一个变化是在预训练时增加标记数量的过程。像 Chinchilla 这样的模型（开源语言模型）已经证明，通过增加预训练数据，大型语言模型的表现会更好。

Chinchilla 是一个计算最优模型。在相同的计算预算下，在 70B 参数和比 Gopher 模型多四倍的数据上进行训练，Chinchilla 的表现一致优于 Gopher，它甚至比 GPT-3、Jurassic-1 和 Megatron-Turing NLG 等 LLMs 效果更好。这清楚地描述了对于每一个计算最优的训练，标记的数量应该相应地缩放——即模型大小的两倍，因此训练标记的数量应该是两倍。

3.第三个变化是使用干净和多样化的预训练数据。Galactica 的性能证明了这一点，它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练，Galactica 的表现优于 GPT-3、Chinchilla 等模型。另一个大型语言模型 BioMedLM 是一种针对生物医学文本的特定领域 LLM，在针对特定领域数据进行训练时，它表现出了巨大的性能提升。它清楚地表明，在特定领域的数据上进行的预训练胜过在通用数据上的训练。

LLMs 的成功无疑归功于多种因素的混合，包括 RLHF 的使用和预训练基础模型的发展。这三个变化极大地影响了 LLMs 的性能。此外，GLaM（通用语言模型）通过使用稀疏激活的混合专家架构（Mixture-of-Experts architecture），以更少的训练成本扩展模型的容量，从而显着提高了性能。因此，这些变化为更高级的语言模型开辟了道路，而这些模型将继续让我们的生活变得轻松。

DeFi之道

个人专栏

阅读更多

金色财经善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

澎湃新闻

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

以太坊交易所Blur投资漫谈_SUI:aptos币价格估计

在观察Blur项目的过程中被问到很多次“你怎么看Blur”,我最直接简单的回答是“它改变了我的交易习惯”.

PEPE全面解析Nostr：一个革命性的社交媒体协议_BLU:SEADOG币

原文作者：Jameson Lopp原文编译：Peng SUN,Foresight News一项新技术看似毫无征兆地自发出现,但实际上是多位科学家数十年研究和开发的结晶.

币赢交易所从世界大会看 Web3 前景_WEB:Reflecto

2023年世界经济论坛年会于2023年1月16日至20日在达沃斯举行,这是世界经济论坛时隔三年回归线下。与1971年达沃斯论坛第一次举办时相比,如今达沃斯的雪量已经减少了40%以上.

中币交易所零知识证明开发指南：从入门到高阶_WEB:区块链工程专业学什么女生比较好

通过阐述整个开发工具集,本文希望提供一个指南,帮助开发者在决策过程中选择合适的zk堆栈。去年夏天,Vitalik 写了一篇博文,概述了不同类型的 zkEVM（零知识以太坊虚拟机）.

金宝趣谈

一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化_比特币:LMS

金宝趣谈