速读 Evmos 升级失败官方分析报告及解决方案_MOS:DRO

作者:Evmos官方团队

编译:Lukie

3月7日上午,CosmosEVM兼容中心Evmos在Discord官方群表示,网络升级失败,并将暂停24-48小时。3月8日下午,CosmosEVM兼容中心Evmos在推特发文称,「鉴于社区反馈,Evmos至少在接下来的几天内都不会上线」。

今日15:27时,Evmos团队在Github上发表了升级失败报告,对网络升级失败的核心问题进行了解读。

为什么链停止运行了?

?核心团队在主网上发布了部分测试的升级程序代码

?发生共识错误之后协调失误,团队安排的时间太紧凑,只有几个小时可用于进行升级部署

?升级的复杂性达到了一个极端——需要彻底重启整个网络并完成同步

?5个验证者双签,导致它们被tombstoned

1)当验证者被tombstone后,他们将不能再次成为验证节点。

2)这是一个严重的错误。tombstone本质上是永久封禁,所有的委托都需要手动解除绑定,这对委托人来说也是一个可怕的场景。

ApolloX发布攻击调查结果:黑客利用交易奖励合约漏洞积累255个签名后从提款合约提取5300万枚APX:6月9日消息,去中心化交易所ApolloX针对黑客攻击事件更新称,一名黑客利用Apollo X的交易奖励合约中的一个漏洞积累了255个签名,然后使用这些签名从提款合约中提取了5300万枚APX代币。不过,用户的资金不会受到损失,ApolloX更改了Staking合约的真实持有者。ApolloX团队还用60万美元紧急回购了12,748,585枚APX代币。损失的代币将通过交易所交易费赚取的APX来弥补。[2022/6/9 4:13:59]

?考虑到受影响的验证节点和用户,暂停这条链是可以接受的。

?在尝试恢复网络数小时后,我们目睹了多个验证节点被tombstone。验证者社区和核心团队认为这是不对的,于是决定停止网络,直到新版本测试达到可用于生产的状况后再重启。

为什么会出现5个验证者双签?

?他们在共识停止期间运行unsafe-reset-all,导致他们破坏了priv_validator_state.json文件。此外,一些节点在迁移到其他机器的过程中,并忘记拷贝迁移priv_validator_state.json文件

动态 | 黑客利用Mozilla Firefox漏洞攻击Coinbase用户:据TNW 6月19日消息,Mozilla Firefox警告黑客在其Firefox浏览器中利用关键漏洞攻击用户,其中,加密货币持有者风险最大。该漏洞的细节很少,Mozilla将其描述为与JavaScript对象交互时可能出现的”类型混淆漏洞“。考虑到技术原因,主要的加密货币交易所Coinbase被直接定位为易攻击目标。攻击通常会导致丢失敏感信息,例如用户名,密码和其他关键凭据。

到目前为止,还没有发布有关如何利用该漏洞的具体细节。Hard Fork已经与Coinbase联系以获取更多信息。Mozilla现已发布补丁,并敦促用户尽快更新浏览器。[2019/6/20]

?他们不知道必须备份并迁移priv_validator_state.json,因为当链正常运行时这通常都不是问题,大多数块将在一轮内达成共识,并且在说明手册中没有明确说明一定要这样做。

为什么有这么多验证者运行unsafe-reset-all而不保留他们的priv_validator_state.json?

现场丨BitTemple携手节点资本等机构在新加坡举办Bit Week区块链论坛活动:金色财经现场报道,9月18日至25日,由BitTemple携手节点资本及各大顶级机构共同举办的为期7天的Bit Week区块链论坛活动,在新加坡共和国大厦5楼举行。届时来自全球的区块链投资机构、交易所、媒体、KOL将对齐聚新加坡,对区块链未来商业发展、技术创新、国家政策等问题进行探讨。9月18日晚Landing night开幕酒会上,Node Capital投资合伙人Leon Shi、BitTemple社区经理Neko Cai、NodePlus创始人Jade Chen、Hotnode创始人&CEO Andy Wang、Hiwa创始人陈超、Vocean联合创始人Jerry Zhong、Teleme COO Maria、BlockAsia总经理Ken 等人在开幕式上致欢迎辞,预祝接下来的活动圆满进行。[2018/9/18]

?验证者必须从快照中恢复,因为如果他们在升级期间重新启动节点,他们将不再参与共识,所以在这样做时,它们要么完全删除$EVMOSD_home/data,要么运行unsafe-reset-all。在共识停止期间执行此操作时,它是不安全的,并且如果没有备份priv_validator_state.json,则不完全了解如何恢复。

行情 | 农业大麻领涨区块链概念板块:据TokenClub数据,目前区块链概念板块涨幅前三的分别为农业大麻(+6.97%),投票选举(+6.45%)及分叉币(+3.38%)。在农业大麻板块已收录的币种中6涨4跌,BUZZ以98.08%领涨。[2018/8/7]

?关于priv_validator_state.json有很多误解

?关于这个文件在重新同步时的影响,没有明确的答案

为什么验证者必须从快照中恢复?

?当链停止运行并且人们在停止期间重新启动他们的验证节点时,验证节点不会自动恢复参与共识流程。

?因此,解决方案是使用快照重新启动一个新的数据库。

?在这段时间里,许多人超量访问Polkachu端点,但是在从头开始下载或同步节点之后,操作人员设法启动了Polkachu快照的镜像。

?双签的人和该区块提交者有很强的关联性。

以下是在区块高度58701的共识流程中违反拜占庭规则的行为:

BF5FC06E32A4168817A16D69692F36C8F7A5DA37,proposedround0,anddoublesignedround0.

应用区块链技术 专家组正立项制定溯源国家标准 :据中国经济网消息,日前,在北京召开的媒体交流会的“食品质量追溯体系评价与区块链”主题分享中,中国标准化研究院副研究员刘鹏表示,目前国家专家组正在立项制订一系列的追溯国家标准,标准发布后对各类产品的追溯,包括应用区块链进行的追溯,会有很大的帮助。[2018/6/1]

FF9F24A7DB626386EBA92D1E8D058474CEC40C26,proposedround2,anddoublesignedround2.

4F8EDD442959D0BB78F8CE0012BAD23AFEE6E08C,proposedround4,anddoublesignedround4.

76692115F93AE444FA857C7BA963F125D8C2E6C6,proposedround8,anddoublesignedround8.

9BA4035E5B58DAB71B6573791FDAA3D9E1C78A00,proposedround10,anddoublesignedround10.

为什么验证者要重新启动它们的节点?

?一些节点重新启动,因为它「看起来卡住了」。

?其他节点重新启动,因为没有人能够保持一组可靠的peer。

?本次升级比大多数验证者所习惯的升级都要复杂。

为什么没有一群稳定同步的peer呢?

?我们怀疑许多节点并没有进行升级,导致升级重新启动后的节点连接到一些没有升级的无效节点。许多节点的addrbook.json因为没有升级导致他们与新版本无法兼容。

?人们很可能连接到没有升级的seed,并可能传播他们大量无效的addrbook.jsonpeer。

?当人们在升级过程中关闭他们的节点,导致peer的状况变得更糟。

?有几个关键节点直到后来才升级,这意味着许多关键节点都在运行旧版本。

?我们在解决,并创建了一个稳定的peer列表。

为什么我们需要在v2.0.1之前紧急发布v1.1.2版本?

?在高度58,700它需要一个升级处理程序紧急升级链。我们不想通过治理进行升级,因为有一个安全漏洞还没有被修复,否则需要等待至少5天的时间,这会导致大量的人利用漏洞窃取他人的资产。

为什么我们没有发现v2.0.0早期升级失败的问题?

?没有自动化的测试套件来捕捉错误,因此测试必须从头开始构建测试工具或手动完成。手动测试一直持续到交付的最后时刻,但是并非所有团队成员都能拥有在迁移期间快速手动测试需求的能力。

?因为我们在最后一分钟更改了迁移逻辑以尝试通过模块迁移进行升级,所以我们在升级前测试了这大约300个块。我们没有足够的时间在几个小时前召集可用人员并准备好进行测试,因为这是手动测试,需要对升级有深入的了解。

?当我们使用旧的升级处理逻辑时,在指定块高度使用cosmovisor进行升级时已经通过测试并可以正常工作,但它不符合最佳实践,因为设置新的参数应该在模块本身的迁移处理程序中完成。在编写迁移处理程序时,我们试图获取现有参数并进行设置,当你在迁移过程中时GetParam将返回空字节。所以解决方法是在迁移中设置所有新参数,而不从存储中检索旧参数。

?当我们测试迁移逻辑并发现故障、其他Evmos工程师重新上线时,它已经落后了300个块。到那时,已经来不及了,Evmos不得不接受在区块高度58700升级的命运。

为什么这个升级对于验证者来说变得如此复杂?

Evmos团队在协调紧急升级时出现了几个错误:

?没有对v2.0.0进行测试导致了第二次更新。如果没有经过测试,则应该推迟升级。

?由于漏洞的严重性,发布时间很紧迫。

1)通知应至少提前24小时发出,区块高度有所推迟,但在升级前几个小时发布的版本被限制了,这意味着验证者必须在线交换二进制文件。

2)升级非常激进。

3)时间线是在修复之前选择的,这不是安全事件的处理方式。

4)即使用户资金存在风险,也应该在公开之前找到解决方案,即使是更?广泛的验证者组。

?在不可行的时间线上为此使用cosmovisor,当原始设计使状态机兼容直到分叉高度时,需要手动升级。团队在节点运营商中过度估计了cosmovisor的重要性。

为什么要花这么多轮来尝试升级?

?因为升级版本是最后一刻发布的,而且升级失败了,是不能立即恢复的。

?投票权不在我们这里,我们在争取了66%的投票权,在10轮回合中,也就是说持续了数小时。

为什么人们需要依赖快照和重新同步v1.1.2来重新应用升级v2.0.1?

当验证者开始使用v2.0.1版本时,许多人认为peer存在问题,因为这在Cosmos生态系统中很常见。在停止运行其节点以修改对peer列表和/或增加peer数量之后,他们重新启动了节点。我们认为这导致了Tendermint的一种不确定状态。正如我们所说的,这种不确定状态导致Tendermint不知道它应该处于块同步模式还是共识模式,从而导致节点处于闲置状态。要从这种不稳定状态中恢复,用户需要删除他们的数据库并从升级前的快照中恢复并同步到升级高度,然后更改到v2.0.1.

此外,Evmos团队还在Github上发布了补救文件供开发者和验证者参考。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金宝趣谈

[0:15ms0-7:230ms