级联失效

生成缩略图出错:无法找到文件
演示单个故障如何导致整个网络中其他故障的动画

在一个部件相互连接的系统中,一个或几个部件的故障会引发其他部件的故障的过程就是级联失效 Cascading Failure(也可译为级联故障)。这种故障可能发生在许多类型的系统中,包括电力输送、计算机网络、金融、交通系统、生物体、人体和生态系统。


当系统的一部分发生故障时,可能会发生级联失效。当这种情况发生时,其他部分必须对发生故障的部分进行补偿,这反过来又会使这些节点超载,使它们也发生故障,导致更多的节点相继发生故障。


在电力输送中

级联失效在电网中很常见,当其中一个元件(完全或部分)发生故障并将其负荷转移到系统中附近的元件时,就会推动那些附近的元件超出其容量,从而过载,并将其负荷转移到其他元件上。级联失效在高压系统中也很常见,在一个满载或轻度过载的系统中,一个单点故障 Single Point of Failure (SPF)会导致系统所有节点突然出现尖峰。这种浪涌电流 Surge Current可能会导致已经过载的节点发生故障,引发更多过载,从而在很短的时间内使整个系统瘫痪。


这个故障过程就像池塘上的涟漪一样,在系统的各个元件之间蔓延,直到系统中的所有元件都受到损害和/或系统在功能上与负载源断开。例如,在某些情况下,一个大型电网可能因为单个变压器的故障而崩溃。


实时监测系统的运行情况,并明智地断开部件的连接,有助于阻止级联。另一种常见的技术是通过计算机模拟可能发生的故障来计算系统的安全边际,确定安全运行水平,在此水平之下,计算出的任何一种情况都不会引起级联失效,并确定网络中最有可能引起级联失效的部分。[1]


防止电网故障的主要困难之一是控制信号的速度比传播电力过载的速度慢,即由于控制信号和电力都以同样的速度运动,所以无法通过提前发出警告来隔离元件从而隔离故障。


电网故障是否具有相关性的问题,李大庆 Daqing Li等人[2] 以及保罗·DH·海恩斯 Paul DH Hines等人都有研究。[3]


案例

级联失效曾导致以下停电:

  • 1965年美国东北大停电
  • 1999年巴西南部停电
  • 2003年美国东北大停电
  • 2003年意大利停电
  • 2003年伦敦大停电
  • 2006年欧洲停电
  • 2012年印度北部停电
  • 2016年南澳停电
  • 2019年南美洲东南部停电


在计算机网络中

级联失效也可能发生在计算机网络(如因特网)中,由于硬件或软件的故障或断开,导致网络中较大部分的网络通信严重受损或停止。在这种情况下,级联失效被称为术语“cascade failure”。级联失效会影响到大批人员和系统。


级联失效的原因通常是一个单个关键的路由器或节点的超载,导致节点宕机即使是短暂地宕机。它也可能是由于为了维护或升级而关闭一个节点引起的。在这两种情况下,流量都被路由到达或通过另一条(替代)路径。结果,这条替代路径变得过载,导致宕机,等等。它还会影响依赖该节点正常运行的系统。


症状

级联失效的症状包括: 数据包丢失和高网络延迟,不仅仅是对单个系统,而是对整个网络或互联网。高延迟和数包丢失是由于网络拥塞崩溃 congestion collapse导致节点无法正常运行,这使得数据仍然存在于网络中,但是没有太多或任何有用的通道来传输它们。因此,路由仍然可被认为是有效的,而实际上它们并没有提供通信。


如果有够多的路由因为级联失效而中断,网络或互联网的一个完整部分就会无法访问。尽管我们不希望出现这种情况,但这有助于加快从故障中恢复,因为连接会超时,其他节点会放弃尝试与被切断的部分建立连接,从而减少相关节点的负载。


在级联失效中,一个常见的现象是行走故障,即各段下行,导致下一段故障,之后第一段回升。在恢复稳定之前,这种波纹可能会在相同的区段或连接节点上进行多次传递。


历史

级联故障是最近随着流量的大量增加以及系统和网络之间的高互联性而出现的。这个术语最早是在90年代末由一位荷兰的IT专业人员在这样的背景下使用的,后来慢慢成为一个形容这种大规模故障的比较常见的术语。


案例

网络故障通常始于单个网络节点故障。首先,正常经过该节点的流量停止,系统和用户会得到流量无法到达主机的错误提示。通常,ISP的冗余系统会很快做出反应,选择另一条通过不同骨干网的路径。这条替代路径通过的路由路径更长,跳数更多,随后还要经过更多的系统,而这些系统通常不会处理突发的流量。


这可能会导致替代路线上的一个或多个系统瘫痪,造成类似故障系统的问题。


此外,在这种情况下,相关系统也会受到影响。例如,DNS解析可能会失败,那些通常会造成系统互连的情况可能会破坏一些连接,这些连接甚至没有直接参与实际发生故障的系统。而这又可能导致看似不相关的节点出现问题,从而导致另一个级联失效的发生。


2012年12月,Gmail服务在全球范围内出现了部分损失(40%),持续了18分钟。这次服务损失是由包含错误逻辑的负载平衡软件的例行更新引起的——在这种情况下,该错误是由使用不合适的all而不是更合适的some的逻辑引起的。通过完全更新网络中的一个节点,而不是部分更新所有节点,修复了级联失效。


级联结构失效

某些具有离散结构构件的承重结构可能会出现 "拉链效应",即单个结构构件的失效会增加相邻构件的荷载。 在凯悦酒店人行道坍塌事件中,当单根垂直悬杆失效时,悬空的人行道(由于施工中的错误,人行道已经过度受力)倒塌,使相邻的悬杆超载,相邻的悬杆依次失效(像拉链一样)。一座可能发生这种倒塌的桥梁被称为断裂临界桥梁,许多桥梁的坍塌都是由单一部件的故障引起的。正确设计的结构使用足够安全系数的和/或交替的荷载路径来防止这种类型的机械级联失效。[4]


其他例子

生物

生物学中存在着生化级联,一个小的反应就会对整个系统产生影响。一个负面的例子是缺血性级联反应,在这种反应中,一个小的脑缺血发作释放出的毒素比最初的损伤杀死更多的细胞,导致更多的毒素被释放。目前的研究正在寻找一种方法来阻断中风患者的这种级联反应,以最大限度地减少损伤。


在物种灭绝的研究中,有时一个物种的灭绝会导致许多其他物种的灭绝。这样的物种被称为关键种 keystone species


电子学

另一个例子是Cockcroft-Walton发电机,它也会发生级联失效,其中一个故障的二极管会导致所有二极管在顷刻间发生故障。


在科学实验中,这种效应的另一个例子是2001年用于超级神冈探测器实验中的几千支易碎的玻璃光电倍增管发生内爆,其中一个探测器的故障造成的冲击波似乎引发了其他探测器的内爆,形成了连锁反应。


金融

在金融领域,金融机构连锁倒闭的风险被称为系统性风险:一家金融机构的倒闭可能会引起其他金融机构(其交易对手)的倒闭,在整个系统中连锁倒闭。[5]


那些被认为构成系统性风险的机构要么被视为“太大而不能倒”(TBTF) ,要么被视为“太相关而不能倒闭”(TICTF) ,这取决于它们为什么会构成威胁。


但请注意,系统性风险不是由于单个机构本身造成的,而是由于它们相互之间的联系。关于经济学和金融学的详细模型,请参阅艾略特 Elliott等人(2014)和阿西莫格鲁 Acemoglu等人(2015)的文章。[6][7]


金融领域的一种相关的(但不同的)级联失效发生在股票市场,2010年的闪电崩盘就是一个例子。


有关研究和预测金融连锁反应影响的另一个框架,请参见[8][5]


相互依赖的级联失效

生成缩略图出错:无法找到文件
图1: 不同基础设施之间的相互依存关系的说明
生成缩略图出错:无法找到文件
图2: 一阶和二阶渗流过渡的示意图。在二阶情况下,最大连通分支在渗流阈值p=p_c时不断接近零。在一阶情况下,最大连通分支不连续地接近零。

诸如供水、运输、燃料和发电站等多种基础设施都是耦合在一起的,并相互依赖着运行,见图1。由于这种耦合,相互依存的网络对随机故障,特别是对有针对性的攻击极为敏感,因此,一个网络中一小部分节点的故障就会导致几个相互依存的网络中出现一连串的故障。[9][10] 电气停电经常是由相互依赖的网络之间的故障级联造成的,近年来发生的几次大规模停电事件就极大地说明了这个问题。停电是网络之间的依存关系所起的重要作用的一个很好的证明。例如,2003年意大利大停电导致铁路网、医疗系统、金融服务大面积瘫痪,此外,还严重影响了电信网络。通信系统的部分故障又进一步损害了电网管理系统,从而对电网产生了正反馈。[11]这个例子强调了在一个相互影响的网络系统中,相互依赖是如何显著放大损害的。基于渗流理论,最近发展了一个研究耦合网络之间级联失效的框架。[12] 与连续崩溃的单一网络的渗流相比,级联失效会导致网络的突然崩溃,见图2。空间嵌入式系统中的级联失效已经被证明会导致系统特别脆弱。[13]关于级联失效的动态过程见参考文献。[14]迪•姆洛 Di Muro等人开发了一个修复故障的模型,以避免级联失效。[15]


此外,研究表明,当这种系统嵌入空间时,极易受到局部攻击或故障的影响。超过临界损伤半径,故障可能扩散到整个系统。[16]


过载级联失效模型

过载传播导致的级联失效的模型是Motter-Lai模型。[17]赵继昌 Jichang Zhao等人对这种故障的时空传播进行了研究。[18]


另见


参考

  1. Zhai, Chao (2017). "Modeling and Identification of Worst-Case Cascading Failures in Power Systems". arXiv:1703.05232 [cs.SY].
  2. Daqing, Li; Yinan, Jiang; Rui, Kang; Havlin, Shlomo (2014-06-20). "Spatial correlation analysis of cascading failures: Congestions and Blackouts". Scientific Reports (in English). 4 (1): 5381. Bibcode:2014NatSR...4E5381D. doi:10.1038/srep05381. ISSN 2045-2322. PMC 4064325. PMID 24946927.
  3. Hines, Paul D. H.; Dobson, Ian; Rezaei, Pooya (2016). "Cascading Power Outages Propagate Locally in an Influence Graph that is not the Actual Grid Topology". IEEE Transactions on Power Systems: 1. arXiv:1508.01775. doi:10.1109/TPWRS.2016.2578259. ISSN 0885-8950.
  4. Petroski, Henry (1992). To Engineer Is Human: The Role of Failure in Structural Design. Vintage. ISBN 978-0-679-73416-1. https://archive.org/details/toengineerishuma00petr. 
  5. 5.0 5.1 Huang, Xuqing; Vodenska, Irena; Havlin, Shlomo; Stanley, H. Eugene (2013). "Cascading Failures in Bi-partite Graphs: Model for Systemic Risk Propagation". Scientific Reports. 3: 1219. arXiv:1210.4973. Bibcode:2013NatSR...3E1219H. doi:10.1038/srep01219. ISSN 2045-2322. PMC 3564037. PMID 23386974.
  6. Acemoglu, Daron; Ozdaglar, Asuman; Tahbaz-Salehi, Alireza (2015). "Systemic Risk and Stability in Financial Networks". American Economic Review. American Economic Association. 105 (2): 564–608. doi:10.1257/aer.20130456. hdl:1721.1/100979. ISSN 0002-8282.
  7. Elliott, Matthew; Golub, Benjamin; Jackson, Matthew O. (2014). "Financial Networks and Contagion". American Economic Review. American Economic Association. 104 (10): 3115–3153. doi:10.1257/aer.104.10.3115. ISSN 0002-8282.
  8. Li, W; Kenett, DY; Yamasaki, K; Stanley, HE; Havlin, S (2017). "Ranking the economic importance of countries and industries". Journal of Network Theory in Finance. 3: 1–17. arXiv:1408.0443. doi:10.21314/JNTF.2017.031. ISSN 2055-7795.
  9. "Report of the Commission to Assess the Threat to the United States from Electromagnetic Pulse (EMP) Attack" (PDF).
  10. Rinaldi, S.M.; Peerenboom, J.P.; Kelly, T.K. (2001). "Identifying, understanding, and analyzing critical infrastructure interdependencies". IEEE Control Systems Magazine. 21: 11–25.
  11. V. Rosato, Issacharoff, L., Tiriticco, F., Meloni, S., Porcellinis, S.D., & Setola, R. (2008). "Modelling interdependent infrastructures using interacting dynamical models". International Journal of Critical Infrastructures. 4: 63–79. doi:10.1504/IJCIS.2008.016092.
  12. S. V. Buldyrev, R. Parshani, G. Paul, H. E. Stanley, S. Havlin (2010). "Catastrophic cascade of failures in interdependent networks". Nature. 464 (7291): 1025–8. arXiv:1012.0206. Bibcode:2010Natur.464.1025B. doi:10.1038/nature08932. PMID 20393559.
  13. Bashan, Amir; Berezin, Yehiel; Buldyrev, Sergey V.; Havlin, Shlomo (2013). "The extreme vulnerability of interdependent spatially embedded networks". Nature Physics. 9 (10): 667–672. arXiv:1206.2062. Bibcode:2013NatPh...9..667B. doi:10.1038/nphys2727. ISSN 1745-2473.
  14. Zhou, D.; Bashan, A.; Cohen, R.; Berezin, Y.; Shnerb, N.; Havlin, S. (2014). "Simultaneous first- and second-order percolation transitions in interdependent networks". Phys. Rev. E. 90 (1): 012803. arXiv:1211.2330. Bibcode:2014PhRvE..90a2803Z. doi:10.1103/PhysRevE.90.012803. PMID 25122338.
  15. Di Muro, M. A.; La Rocca, C. E.; Stanley, H. E.; Havlin, S.; Braunstein, L. A. (2016-03-09). "Recovery of Interdependent Networks". Scientific Reports (in English). 6 (1): 22834. arXiv:1512.02555. Bibcode:2016NatSR...622834D. doi:10.1038/srep22834. ISSN 2045-2322. PMC 4783785. PMID 26956773.
  16. Berezin, Yehiel; Bashan, Amir; Danziger, Michael M.; Li, Daqing; Havlin, Shlomo (2015-03-11). "Localized attacks on spatially embedded networks with dependencies". Scientific Reports (in English). 5 (1): 8934. Bibcode:2015NatSR...5E8934B. doi:10.1038/srep08934. ISSN 2045-2322. PMC 4355725. PMID 25757572.
  17. Motter, A. E.; Lai, Y. C. (2002). "Cascade-based attacks on complex networks". Phys. Rev. E. 66 (6 Pt 2): 065102. arXiv:cond-mat/0301086. Bibcode:2002PhRvE..66f5102M. doi:10.1103/PhysRevE.66.065102. PMID 12513335.
  18. Zhao, J.; Li, D.; Sanhedrai, H.; Cohen, R.; Havlin, S. (2016). "Spatio-temporal propagation of cascading overload failures in spatially embedded networks". Nature Communications. 7: 10094. Bibcode:2016NatCo...710094Z. doi:10.1038/ncomms10094. PMC 4729926. PMID 26754065.


进一步阅读


相关链接

  • I. Dobson, B. A. Carreras, and D. E. Newman, preprint A loading-dependent model of probabilistic cascading failure, Probability in the Engineering and Informational Sciences, vol. 19, no. 1, January 2005, pp. 15–32.
  • Nova: Crash of Flight 111 on September 2, 1998. Swissair Flight 111 flying from New York to Geneva slammed into the Atlantic Ocean off the coast of Nova Scotia with 229 people aboard. Originally believed a terrorist act. After $39 million investigation, insurance settlement of $1.5 billion and more than four years, investigators unravel the puzzle: cascading failure. What is the legacy of Swissair 111? "We have a window into the internal structure of design, checks and balances, protection, and safety." -David Evans, Editor-in-Chief of Air Safety Week.


编者推荐

集智课程

复杂网络视角下的级联失效

过去几十年里,世界经历了几次重大的经济危机和金融危机泡沫,如21世纪初的互联网泡沫,2008年美国房地产市场崩溃所引发的全球经济危机,由此引发的各种经济故障和失败件深刻地渗透到日常生活中。由此,经济金融领域的系统性失败机制值得关注。


随着网络科学的研究进展,复杂网络特别是相互依存的网络就可以帮助我们认识不同经济金融子系统之间的相互连接方式,并可以设计不同的级联失效机制展示风险、破产等失败事件的传播过程。本课程中,将从经济金融系统的网络建模出发,讨论如何设计级联失效机制,并介绍相关最新研究成果。



本中文词条由11翻译和WildBoar审校,薄荷编辑,如有问题,欢迎在讨论页面留言。


本词条内容源自wikipedia及公开资料,遵守 CC3.0协议。