ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_CHA:ATG

撰文：Tanya Malhotra

来源：Marktechpost

编译：DeFi 之道

图片来源：由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功，大型语言模型（LLM）正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型，允许用户生成有意义的文本。不仅如此，它还可以回答问题，总结长段落，编写代码和电子邮件等。其他语言模型，如 Pathways 语言模型（PaLM）、Chinchilla 等，在模仿人类方面也有很好的表现。

Michael Saylor：加密货币需要监管和动荡才能发展:2月6日消息，Microstrategy 联合创始人 Michael Saylor 在接受 CNBC 采访时表示，加密货币破产和价格暴跌在短期内是痛苦的，但从长期来看，这是该行业发展的必要因素。

此外，Michael Saylor 表示，加强加密货币领域监管也是必须的，这需要长期参与传统金融市场实体的指导和监管机构的投入一一尤其是美国证券交易委员会 (SEC)。[2023/2/6 11:49:41]

大型语言模型使用强化学习（reinforcement learning，RL）来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理（agent）通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈，而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

Wolfram Blockchain Labs与IOHK合作，集成Cardano区块链数据:12月17日消息，Wolfram Research的子公司Wolfram Blockchain Labs（WBL）正与IOHK合作，以将Cardano区块链中的数据集成到Wolfram Alpha中，从而使开发人员可以将外部数据集成到Cardano的智能合约中。WBL和IOHK将在2021年推出该功能。（Cointelegraph）[2020/12/17 15:35:56]

ChatGPT 使用来自人类反馈的强化学习（RLHF），通过最小化偏差对模型进行微调。但为什么不是监督学习（Supervised learning，SL）呢？一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢？人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因，即为什么强化学习被用于微调而不是监督学习。

DEX聚合器1inch.Exchange计划推出代币:7月26日，DEX聚合器1inch.Exchange官方宣布正在筹备推出1inchToken。数据显示，1inch.Exchange累计交易额突破10亿美元，其中上周交易量达2亿美元。[2020/7/27]

不使用监督学习的第一个原因是，它只预测等级，不会产生连贯的反应；该模型只是学习给与训练集相似的反应打上高分，即使它们是不连贯的。另一方面，RLHF 则被训练来估计产生反应的质量，而不仅仅是排名分数。

Riot Blockchain计划将所有BCH兑换成BTC:纳斯达克上市公司Riot Blockchain近日在一份公开文件中表示，Riot计划将该公司目前已开采的BCH兑换成BTC。据悉，今年，Riot开采了大约69个BTC和44个BCH，价值约70万美元。Riot公司预计其目前拥有的哈希算力超过110个Petahash，这将使该公司成为最大的公开上市的数字货币采矿公司之一。[2018/4/28]

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的，而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是，它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上，改变反应中的个别单词可能对整体损失只有很小的影响，但如果一个单词被否定，产生连贯性对话的复杂任务可能会完全改变上下文。因此，仅仅依靠 SL 是不够的，RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型，但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示，RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励，而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中，首先使用 SL 对模型进行微调，然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容，而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

阅读更多

金色财经善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Polygon金色早报 | 破产律师称FTX资产“严重短缺”_区块链:cosmos币发行量多少

▌破产律师称FTX资产“严重短缺”金色财经报道,根据一份新闻稿,FTX的资产“严重短缺”,该新闻稿详细介绍了将于周四在破产加密货币交易所中提交的一份报告.

KuCoin长推：L2的局限性和另一种扩容方法_比特币:OIN

原文作者：Luyao 原文来源：twitter注：本文来自@levi0214 推特,MarsBit整理如下：Gnosis 的创始人 @koeppelmann 昨天在 EthDenver 做了个分.

中币下载涉及超13.7万枚比特币 Mt.Gox清偿窗口即将打开债权人会如何获得赔偿？_CHA:IOT

历经多次推迟清算及数场官司,Mt. Gox被盗事件总算进入赔付阶段,其债权人有望在今年3月获得首批还款.

BNB金色Web3.0日报 | 摩根大通将结束与Gemini的合作关系_NFT:去中心化金融defi是干什么的

DeFi数据 1、DeFi代币总市值：466.58亿美元 DeFi总市值及前十代币数据来源：coingecko2、过去24小时去中心化交易所的交易量25.

金宝趣谈

ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因_CHA:ATG

金宝趣谈