Lighthouse:从测试网崩溃中学到的教训_加密货币:Gigoswap

作者:BlairFraser

翻译:阿剑

来源:以太坊爱好者

一个测试网倒下,千千万万个测试网站起来

一个星期以前,我们宣布使用Lighthouse客户端启动一个大型的公开测试网。测试网成功启动并且运行了一周,首次证明了使用生产环境配置的Eth2测试网也是可以跑起来的。

启动测试网时,我们曾说,“我们要尝试把这个测试网搞崩,而且我有自信我们能够成功”。测试网确实挂了,而且是两次。第一次是在周六上午,第二次是在周一早上。第一次挂掉之后,我们成功恢复了测试网运行;但第二次崩溃时,我们决定就此收手,不再恢复。

生成式艺术平台Highlight在以太坊上推出:金色财经报道,Haun Ventures资助的生成式NFT艺术平台Highlight今天在以太坊上线,该平台旨在成为可访问的一站式NFT艺术创作平台。Highlight允许用户创建、测试和铸造计算机生成的艺术作为NFT。它取消了创作者费用,这样艺术家就可以保留100%的销售资金,而买家只需支付少量费用。

此前报道,去年5月份,NFT平台Highlight完成1100万美元种子轮融资,Haun Ventures领投。[2023/7/26 16:00:12]

这里说的“崩溃”、“挂掉”,都是指测试网无法敲定epoch。而没法敲定epoch的原因是超过1/3的验证者都掉线了。在设计上,这个测试网遇到问题不会死撑,而是会快速且明确地表现出失败。

动态 | Eligma的加密支付服务Gocrypto现已被500家实体零售商户接受:总部位于斯洛文尼亚首都卢布尔雅那的初创公司Eligma周四表示,该公司的加密支付服务Gocrypto现已被500家实体零售商户所接受,这500家商户大部分都位于斯洛文尼亚国内。(Bitcoin.com)[2019/10/12]

这个测试网的基石是4个AWSt2.medium实例;每个实例都作为公开的引导节点,负载4096个验证者。实际上,我们也很惊讶,它们居然能撑这么久;对于少数硬件配置一般的机器来说,这是巨大的负担;它们中只要有两个离线了,测试网就没法继续敲定了。

声音 | Cointelligence创始人On Yavin:加密货币和区块链技术的大规模采用是不可避免的:据Business Review消息,加密货币评级网站Cointelligence创始人兼首席执行官On Yavin接受采访时表示,加密货币和区块链技术的大规模采用是不可避免的,但政府必须先弄清楚如何监管它们,而监管者、大型机构和加密界之间将会就如何监管进行大量辩论。我们已经看到很多银行和其他机构针对在其行业使用区块链的方法注册专利,所以人们对此感兴趣。我们只需要让他们相信加密货币。[2019/2/4]

我们分析了这两次崩溃事件,也学到了很多。我们团队已经回到开发工作中,希望能在下周发布一个新的测试网。你可以在v0.1.1milestone这个页面上了解我们的进展。

动态 | 日本软件公司Systemintelligent向员工发放自有的加密货币:据it.impressbm报道,日本一家软件开发公司Systemintelligent8月初开始面向公司内部员工发行公司自有的加密货币Fogos。员工可以使用Fogos在公司内购买食品,公司每月也会发放一定的Fogos作为员工福利的一部分。此外,该加密货币也可用于公司内员工的表彰奖励及员工间的转账行为等方面。该公司社长长谷川尧一表示,公司内部应用加密货币可以让每位员工都亲身体验加密货币,加深他们对于区块链和加密货币技术的了解,这也和公司未来业务相关。[2018/8/21]

教训

测试网崩溃的主要原因

测试网第一次崩溃的直接原因是软件的联网部件中的一个循环,它会“看到”某个见证数据不断地重复发布。该循环在我们部署的四个信标节点中的两个节点上出现了,耗尽了它们的资源,使得它们无法生产区块和见证数据。这个问题是导致两次崩溃的直接原因。

我们已经更新了我们的gossipsub实现,现在,每条内容都是根据其内容来寻址的,这就意味着,如果我们收到两条内容相同的消息,gossipsub协议会忽略掉第二条消息。我们也在Lighthouse客户端的代码中加入了复制消息检查,以此防止收发复制消息。

测试网崩溃的次要原因

数据量暴涨

两个信标节点挂掉以后,测试网就不可能敲定区块了。不过,剩下的两个节点仍在继续发出和接收区块,这也是我们希望看到的情形。但是,网络失去确定性之后,它们就无法修剪和压缩它们的数据库,这就导致它们的数据库以每小时几GB的速度增长。因为我们将测试网节点的硬盘限制在32GB,最终,它们的磁盘被旧数据塞满、无法再接受新区块了。这就导致另外两个节点也离线了。

在这种情况下,要想恢复测试网运行也很简单,只需加大硬盘、重启节点即可。我们也对这种恢复方式很满意,因为这就意味着,一些配有大硬盘的节点在两次崩溃中都几乎不会受到什么影响。

在我写作本文之时,Michael正在开发针对这个问题的解决方案,思路是让数据库的膨胀速度降低32倍。虽然我们很高兴看到在100epoch不能敲定之后节点能够恢复,但目前的情况相当于,一个硬盘不足64gb的节点只有约10个小时的生存时间。恢复能力对Lighthouse客户端是非常重要的,而Michael的更新会将10小时延长到13天。

分叉选择

我们也观察到,网络的分叉选择时间延长到了8秒。在我们看来,这是不可接受的,必须要去解决它。我们意识到,这个问题是由于过度从磁盘中加载信标链状态导致的,所以我们已经写了一个PR来解决这个问题。

社区反馈

很高兴看到人们参与到Lighthouse测试网中来并运行自己的验证者,有400多名参与者参与了我们的测试网!感谢他们的反馈!下面这些建议是他们一再提到的:

需要更快的同步时间:我们正在努力了,预计在0.1.1版本中,同步速度可以快上1.5~2倍。

更好的docker文档:Scott正在优化这些文档,而且新的测试网会用docker来部署。

更稳定的eth1节点:我们提供了一个公开的eth1节点,方便用户的使用,但事实证明,这个节点还导致了某些验证者宕机。在下一个测试网发布的时候,我们会在不同的地区部署少量节点,并在这些节点间做负载均衡。

更多API端点:becaoncha.in团队联系上了我们,并希望他们的区块浏览器能够得到更多的API端点。我们已经提交了一个PR,估计会在0.1.1版本时合并。

?

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金宝趣谈

[0:15ms0-6:962ms