金色观察｜a16z：为什么说区块链的性能难以衡量？_WEB:区块链

文/Joseph Bonneau a16z Crypto研究员

性能和可扩展性是加密世界面临的挑战，一直是一个激烈讨论的话题，与L1项目（独立区块链）和L2解决方案（如rollup和链下通道）密切相关。然而，我们还没有标准化的指标或基准进行衡量。数据报告往往不一致且不完整，这使得项目间的准确比较变得非常困难，而且常常使实践中最重要的内容模糊不清。

我们需要一种更细致、彻底的方法来衡量和比较区块链性能——应将性能分解为多个组件，并在多个轴上进行比较权衡。在本文中，我定义了基本术语，概述了困难挑战，并提供了评估区块链性能需要谨记的指导方针和关键原则。

首先，让我们先定义两个术语，那就是可扩展性和性能，它们具有标准的计算机科学含义，在区块链背景下经常被误用。性能用来衡量系统当前能够实现的目标。正如我们下面将要讨论的，性能指标可能包括每秒交易数量或交易确认时间中位数。另一方面，可扩展性则用来衡量系统通过添加资源来提升性能的能力。

这个区别是很重要的：如果定义正确，很多提高性能的方法是根本不能提高可扩展性的。一个简单的例子就是使用更有效的数字签名机制，例如BLS签名，其长度约是Schnorr或ECDSA签名的一半。如果比特币从ECDSA签名切换到BLS，每个区块的交易数量可能会增加20-30%，一夜之间就能提高性能。但我们只能这样做一次——再没有其他更节省空间的签名机制可供切换（BLS签名也可以聚合以节省更多空间，但这是另一个一次性的技巧）。

在区块链中还有其他一些一次性技巧可以使用（如SegWit），但你需要一个可扩展的体系架构来实现持续的性能优化，添加更多的资源可以随着时间的推移提升性能。这也是许多其他计算机系统的传统智慧，比如构建一个网络服务器。通过一些常见技巧，你可以构建一个速度非常快的服务器；但最终，你需要一个多服务器体系架构，通过不断添加新的服务器来满足不断增长的需求。

金色热搜榜：TRX居于榜首:根据金色财经排行榜数据显示，过去24小时内，TRX搜索量高居榜首。具体前五名单如下：TRX、BCD、HC、ELF、ZEC。[2020/7/27]

懂得这个区别还有助于避免语句中出现的常见类别错误，比如“区块链X是高度可扩展的，它每秒可以处理Y个交易！”后半句说法可能令人印象深刻，但它是一个性能指标，而非可扩展性指标。它说的并不是通过添加资源来提升性能的能力。

可扩展性本质上要求利用并行性。在区块链世界中，L1扩展明显需要分片或类似于分片的支持。分片的基本概念是将状态分割成一系列分区，以便不同的验证者可以独立处理，此概念与可扩展性的定义非常匹配。在L2上还有更多选项，L2允许添加并行处理，包括链下通道、rollup服务器和侧链。

通常，区块链系统性能是通过两个维度进行评估的，即延迟和吞吐量：延迟用以衡量确认单个交易的速度，而吞吐量用以衡量随着时间的推移交易的总速率。这些度量轴既适用于L1和L2系统，也适用于许多其他类型的计算机系统（如数据库查询引擎和web服务器）。

遗憾的是，对延迟和吞吐量的衡量和比较都很复杂。此外，个人用户实际上并不关心吞吐量（这是一个系统范围的衡量指标）。个人用户真正关心的是延迟和交易费——更具体地说，就是他们的交易尽可能快、尽可能低成本地得到确认。尽管许多其他计算机系统也以成本/性能为基础进行评估，但交易费是区块链系统的一个新的性能轴，并不真实存在于传统计算机系统中。

延迟一开始看起来简单明了：交易需要多长时间才能得到确认？但总是有几种不同的方法来回答这个问题。

金色午报 | 1月16日午间重要动态一览:7:00-12:00关键词：Bithumb、Ira Kleiman、BSV、波卡、比特币开发者Tamás

1. 美国新罕布什尔州立法部门否决加密货币纳税法案。

2. Bithumb提起诉讼指控韩国国税厅“无根据”征税。

3. Ira Kleiman：希望尽快开庭，想得到“保税快递员”的真相。

4. BSV节点团队正式发布节点软件v1.0.0稳定版。

5. NBA萨拉门托国王队推出基于区块链的实时拍卖平台。

6. 波卡PoS中继链将在第一季度上线，跨链功能已设计完毕。

7. 金融壹账通区块链密钥安全及密码算法通过国密局密码安全测试。

8. 比特币开发者Tamás Blummer因罹患癌症去世。

9. Instagram将改进加密货币广告内容的检测协议。

10. Bitfinex交易所内部地址移动12.34万枚BTC。[2020/1/16]

首先，我们可以在不同时间点衡量延迟，得到的结果也不同。例如，我们什么时候开始计时衡量？是当用户在本地点击“提交”按钮时，还是当交易进入内存池时？我们又在什么时候停止计时呢？是当交易进入提议区块中，还是当一个区块被后续一个或六个区块确认时？

最常用的方法是从验证者角度出发，衡量从一个客户端第一次广播交易到合理“确认”交易的时间（在此意义上，相当于现实世界里的商家认为已收到客户付款，然后发出商品）。当然，不同的商家可能采用不同的验收标准，甚至同一个商家也可能根据交易金额的不同采用不同的标准。

以验证者为中心的方法忽略了在实践中的一些重要事项。首先，它忽略了点对点网络上的延迟（从客户端广播一个交易直到大多数节点听到这个交易消息需要多长时间？），也忽略了客户端延迟（在客户端的本地机器上准备一个交易需要多长时间？）客户端延迟可能非常小，对于签署以太坊支付等简单的交易来说是可以预测的，但对于更复杂的情况延迟问题则可能变得非常显著，如证明一个被屏蔽的Zcash交易是正确的。

金色晨讯 | 1月5日隔夜重要动态一览:21:00-7:00关键词：娄底政协委员、北美、黑客、芝商所、Telegram

1.娄底市政协委员聂东平：加快建立区块链产业风险防控体系。

2.“比特币”搜索热度区域排名南非跃居第一。

3.2019年北美的加密货币和区块链投资最多。

4.Matt Odell：缺乏金融隐私是比特币最大的漏洞。

5.Upbit黑客钱包地址再转出3000枚ETH。

6.芝加哥商品交易所2020年3月BTC合约的期货溢价有所下降。

7.Lisa Neigut：Libra的引入可能会使人们避免使用信用卡付款。

8.Telegram代表律师：SEC要求其提交ICO相关数据是“钓鱼行动”。

9.比特币日内窄幅震荡，最高涨至7400美元，最低跌至7270.88美元。[2020/1/5]

即使我们将试图衡量延迟的时间窗口标准化，答案也几乎总是视情况而定。迄今为止，还没有哪个加密货币系统能提供固定的交易延迟。要记住一个基本的经验法则：

延迟是一个分布，而非一个数字。

网络研究界早就明白这一点。对分布的“长尾”进行了特别强调，因为即使是0.1%的交易（或web服务器查询）的延迟也会给终端用户带来严重影响。

在区块链中，延迟确认可因多种原因发生变化：

批处理：大多数系统都以某种方式进行交易批处理，例如，在大多数L1系统上交易被批处理到区块中。这将导致延迟变数，因为一些交易将不得不排队等候，直到这批交易填满区块。其他交易可能比较幸运，因最后加入该批交易而无需等待。这些交易会立即得到确认，不会经历任何额外延迟。

金色直播间 | 启赋区块链合伙人兰洪明：Token下跌或将导致项目经济体系崩溃:启赋区块链合伙人兰洪明在昨晚金色直播间第三期——《区块链企业收购/并购上市公司的那些事儿》的分享中表示，Token下跌会对项目的生态体系造成巨大的影响，生态成员的信心以及对于项目发布Token的关注度也会下降，最终会导致整个项目的经济体系开始崩溃，这也是目前市面上大量的项目所面临的问题。

ETH下跌对大量的依托于ETH建立生态的项目造成巨大的影响，ETH暴跌会让项目的资金收紧，项目无法运行，最终导致不是空气币的项目都有可能变成空气币。而目前ETH下跌的原因，其一是由于项目对于法币资金的需求不断增加，不得不抛售ETH来换取法币资金，ETH二级市场的容纳能力有限，大量的抛售是导致价格降低的原因之一，第二个原因在于项目怕ETH继续下跌，大量的项目将手中的ETH兑换成USDT、BTC等资金。[2018/9/12]

拥堵变量：大多数系统都会出现拥堵，也就是发布的交易量（至少在某些时候）大于系统能够立即处理的交易量。当交易在不可预测的时间（通常被抽象为泊松过程）进行广播时，或者当新交易在一天或一周内的交易速度发生变化时，亦或在响应外部事件时（如发行一个受欢迎的NFT），拥堵程度会发生变化。

共识层差异：在L1上确认交易通常需要一组分布式节点来达成对一个区块的共识，无论拥堵情况如何，都可能会增加可变的延迟。工作量证明系统在不可预测的时间（也是抽象的泊松过程）找到区块。权益证明系统也可以添加各种延迟（例如，如果在线节点数量不足，不能在一轮中组成一个委员会，或者需要一个view?change视图变换机制来应对leader节点崩溃）。

金色财经现场报道三点钟发起人之一朱大卫：区块链发展需要时间打磨:金色财经现场报道，在4月3日举办的2018年世界区块链峰会现场，三点钟发起人之一朱大卫表示：“区块链的发展我认为需要的是时间，是打磨，它不是难度，它没什么特别难挑战的，它没有什么我们需要集合硅谷最牛的工程师把它给攻克的。从纯粹角度上这不是什么多么新鲜的事情，包括DAC的首席科学家在谷歌负责量子计算为主的，用他的话来说，这样的技术早就不值得去。而它更多的是系统性工程，系统性工程和架构的问题，工程化的问题，这个过程中间，我认为给一定时间，这个基础建设一定会建设得更加完整。”[2018/4/3]

基于这些原因，一个极价的指导原则就是：

关于延迟的声明应该显示确认时间的分布（或直方图），而不是平均值或中位数这样的单个数字。

虽然像平均值、中位数或百分位数这样的汇总统计数据提供了部分情况，但准确评估一个系统需要考虑整个分布。在某些应用程序中，如果延迟分布相对简单（例如高斯分布），则平均延迟可以提供很好的洞察。但在加密货币中，几乎从来都不是这样：通常情况下，确认时间非常缓慢。

支付渠道网络（如闪电网络）就是一个很好的例子。这是一个经典的L2扩展解决方案，这些网络多数时候提供非常快速的支付确认，但偶尔需要重置通道，由此便会增加延迟的数量级。

即使我们对确切的延迟分布有充分的统计，也可能会随着系统和系统需求的变化而变化。另外，关于如何比较竞争系统间的延迟分布也并不总是很清晰。例如，假设一个系统确认的交易延迟均匀分布在1到2分钟之间（平均值和中位数均为90秒）。如果另一个竞争系统在1分钟内准确确认95%的交易，而在11分钟内确认另外5%的交易（平均值90秒，中位数60秒），那么哪个系统更好？答案可能是，有些应用程序更喜欢前者，而有些则更喜欢后者。

最后，需要注意的是，在大多数系统中，并非所有交易的优先级都是相同的。用户可以通过支付更多钱来获得更高的优先级，所以除了上述几个因素外，延迟也取决于所支付的交易费。总而言之：

延迟是复杂的。报告的数据越多越好。理想情况下，应该在不同拥堵条件下衡量完整的延迟分布。将延迟分解为不同组件（本地、网络、批处理、共识延迟）也会有所助益。

乍一看，吞吐量似乎也很简单明了：一个系统每秒可以处理多少交易？这里存在两个主要难点：究竟什么是“交易”，以及我们是在衡量一个系统今天正在做什么，还是未来可能做什么？

虽然“每秒交易量”（或tps）是衡量区块链性能的实际标准，但交易量作为度量单位是有问题的。对于提供通用可编程性（“智能合约”）的系统或者甚至是有限功能的系统，如比特币的多路交易或多信号验证选项，存在的基本问题是：

并非所有的交易都是平等的。

以太坊明显如此。在以太坊中，交易可以包括任意代码和任意修改状态。以太坊中的gas概念用于量化（并收取费用）一笔交易正在进行的总体工作量，但这与EVM执行环境高度相关。没有简单的方法可以比较一组EVM交易与一组应用BPF环境的Solana交易所处理的工作总量。将两者与一组比特币交易进行比较同样令人担忧。

将交易层划分为共识层和执行层的区块链可以让这一点更加明确。在（纯）共识层上，吞吐量可以用每单位时间添加到链上的字节来衡量。执行层的情况总是更加复杂。

例如只支持支付交易的rollup服务器这种比较简单的执行层，避免了量化计算的困难。即使在这种情况下，支付也会因投入和产出的数量不同而变化。支付通道交易可能因所需的影响吞吐量的“跳数”而异。rollup服务器吞吐量可取决于将一批交易“联网”到更小的汇总更改集的程度。

吞吐量的另一个挑战是并非以经验衡量今天的表现，而是评估其理论能力。这就引入了各种建模问题来评估潜在能力。首先，我们必须为执行层确定一个实际的交易工作负载。其次，实际系统几乎从未达到理论容量，尤其是区块链系统。出于运行强健的考虑，我们希望节点实施在实践中是异构的、多样化的（而不是所有客户端运行一个单一软件来实施）。这使得精确模拟区块链吞吐量更加困难。

总之：

吞吐量声明需要仔细说明交易工作负载和验证者（验证者的数量、实施和网络连接）。在没有任何明确标准的情况下，来自以太坊等主流网络的历史工作负载就足够了。

延迟和吞吐量通常是一种权衡关系。正如Lefteris Kokoris-Kogias所描述的那样，这种权衡通常不是一条顺滑的线，存在一个拐点，即当系统负载接近最大吞吐量时，延迟会急剧增加。

零知识rollup系统是吞吐量/延迟权衡的一个天然例子。大批量的交易会增加证明时间，从而增加延迟。但无论是在证明大小还是在验证成本方面，链上足迹将分摊到更大批、更多的交易中，进而增加吞吐量。

可以理解的是，终端用户更关心延迟和费用之间的权衡，而不是延迟和吞吐量之间的权衡。用户根本没有关心吞吐量的直接原因，他们只关心是不是能够以尽可能低的费用快速确认交易（有些用户更关心费用，而有些用户更关心延迟）。总结起来，费用受多重因素影响：

1、有多大市场需求支持交易？

2、系统能达到的总吞吐量有多大？

3、系统提供给验证者或矿工的总收益有多少？

4、该收益中有多少是基于交易费或通货膨胀奖励？

前两个因素大致构成导致市场出清价格的供应/需求曲线。在其他条件相同的情况下，更高的吞吐量应该会导致更低的费用，但还有更多的因素。

特别注意上面的第3点和第4点，是区块链系统设计的基本问题，但是对它们我们还没形成良好的原则。关于给予矿工通胀奖励还是交易费的优缺点我们已有一定的了解。然而，尽管有许多关于区块链共识协议的经济分析，我们仍然没有一个广泛适用的模型来说明需要给验证者多少收益。今天，大多数系统都内建一个有根据的猜测，即多少收益足以让验证者诚实作为，同时又不会妨碍系统的实际使用。

提高攻击成本是一件好事，但我们也不知道多少安全措施才是“足够的”。想象一下，你正在考虑去两个游乐园。其中一个声称在游乐设施维护上比另一个少花50%的费用。去这个公园是个好主意吗？可能因为这个公园的设施效用更高，用更少的钱就能获得同等安全性。也许另一个公园花费超过正常所需费用来保证游乐设施的安全，但没有额外好处。但也可能是第一个公园真的很危险。区块链系统也类似。一旦剔除吞吐量，费用较低的区块链之所以费用低，是因为它们对验证者的奖励较少（因此激励也较少）。我们现在没有得力工具来评估这样是否可行，或者是否会让系统更容易受到攻击。总之：

在不同系统之间比较费用可能会产生误导。虽然交易费对用户来说很重要，但除了系统设计本身之外，费用还会受到很多因素的影响。吞吐量则是分析整个系统的更好指标。

公平准确地评估性能是很难的。就好比测量一辆汽车的性能。拿区块链来说，不同的人会关心不同的方面。对于汽车，有些用户会关心最高车速或加速性能，有些人会关心油耗，还有一些人会关心牵引力。所有这些都不容易评估。例如，美国环境保护署就制定了详细的指导方针，规定如何评估汽油里程数，以及在经销商处必须如何向用户展示。

区块链世界要达到这个级别的标准化还有很长的路要走。在某些领域，未来我们可能会使用标准化的工作负载来评估系统吞吐量，或者使用标准化的图形来表示延迟分布。目前，对评估者和建设者来说，最好的办法就是采集和公布尽可能多的数据，并对评估方法进行详细描述，以便该方法能够得以复制，与其他系统进行比较。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

金宝趣谈

金色观察｜a16z：为什么说区块链的性能难以衡量？_WEB:区块链

金宝趣谈