作者:秦晓峰
来源:Odaily星球日报
过去的这个周末,以太坊2.0测试网又出幺蛾子了。
北京时间8月15日凌晨,Eth2.0客户端执行团队PrysmaticLabs联合创始人PrestonVanloon表示:Eth2.0测试网Medalla上出现时钟Bug,导致对所有节点造成影响,Prysm客户端出现了长达近90分钟的时钟偏斜,验证器也陆续收到超前Slot区块和证明。
简单来说,这次测试网出现的根源,主要在于Prysm客户端的时间服务器Roughtime中断,出现时钟偏斜,导致验证者与区块头无法同步,最终影响了测试网Medalla正常运行。
事故回溯
所谓时钟偏斜,即区块时间与正常时间出现的偏差。
时间对Eth2.0至关重要,每一个区块中都包含时间戳;时间一旦不同步,网络就无法正常运行。
为了防止系统时间不够精准,Prysm采用了美国Cloudflare公司的时间服务器?Roughtime来校正。并且,为了防止单体机器故障,还选择了6台。
然而,问题还是发生了。北京时间8月15日凌晨,Roughtime出现故障,这也导致Prysm被波及。
根据事后的一份诊断报告:“Cloudflare的Roughtime服务器都返回了错误的信息,Prysm节点没有从这种情况适当退避。虽然他们使用6台时间服务器,但似乎还不够,因为它们都返回了错误的时间。”
最终的结果是,Prysm客户端上「时钟偏斜」超过2秒的时间长达90分钟;并且整个客户端时间也比标准时间提前了4个小时。根据PrestonVanloon的推文,时钟偏斜发生在北京时间的15日凌晨1点半-3点种之间。如下所示:
事故发生后,Prysm客户端第一时间停止了Roughtime服务器的使用,并号召用户切换到其他客户端。
“我们决定默认情况下禁用「Roughtime」同步。Roughtime计算中肯定存在一些错误,我们希望尽快发现它。无论调查结果如何,我们认为都应该选择自动调整时钟或完全取消。”PrestonVanloon表示。
几个小时后,开发人员完成调查并发布了修复程序。
不过,名为PR6898的修复程序却存在严重缺陷。
开发人员RaulJordan表示:“在修复此错误时,我们无意中删除了Prysm节点起作用的所有关键功能,这使问题变得更加严重。”
后果
由于时间不同步,通过Prysm客户端进行验证的“几乎没有人同步到链头”。这也意味着,他们的数据是无效的,也就不能参与验证、获得质押奖励等。
虽然目前Eth2.0仍然是测试网阶段,这些奖励也不是真实的——包括用户参与验证质押的ETH也是测试网版的,不具有真实流通性。
但这次事故,还是对整个Medalla测试网造成了冲击。
由于prysm客户端占据?全网64%?以上的份额,在事件发生后,Medalla测试网中主动投票的验证者数量与总验证者数量的比值从75%左右一度降至5%以下。这也意味着,剩余验证者无法达成全网共识,网络无法正常运行。
外媒《Trustnodes》报导称,此次事故也造成以太坊网络一度停止:大约30%的验证流程失败时,内存问题就开始出现;大约50%之后,问题就变得更大;最后在70%之后,网络显然就停止了。
因此,在过去两天,Prysm客户端修缮了自己的客户端,想要尽快启动测试网。
今天下午,星火矿池发出号召,所有运行Prysm客户端参与Medalla测试网的朋友,请检查自己的客户端是否升级到了alpha.22版本。如果尚未升级,请尽快升级,以支援Medalla测试网从同步障碍中恢复。
思考
这次事故也反映了多客户端的重要性。
某个客户端使用占比过高,一旦出现问题,最中可能导致整个网络运行受到影响。
但从现实情况来看,Prysm客户端能够获得青睐也是有原因的。
目前,Eth2.0上线了5个客户端,但Prysm提供的教学无疑是最好上手的,所以绝大多数验证者仍使用Prysm。
因此,对整个以太坊生态来说,要想平衡各个客户端的力量,必须提升其他客户端易用性,而这是一条任重而道远的漫长之路。
最后,我想说这次事故对Eth2.0来说也是一次历练。所有的问题在测试网阶段充分暴露,才能保证Eth2.0未来的可用性和安全性。
从以太坊过去5年的发展来看,相比于The?DAO攻击、分叉等一系列挑战,这次测试网发生的事故只是小问题。
对于以太坊来说,只会愈挫愈勇。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。