容灾应急演练

我要开发同款
拉神2024年11月23日
304阅读

作品详情

目前随着互联网架构以及云设施的普及,云端以及分布式,成为越来越多应用系统构建的思路,在支持高并发以及大数据上,分布式环境展现出很好的优势,但是物理环境的复杂度也随之上升,那也导致了稳定性以及健壮性的复杂,在做功能测试的时候,健壮的问题一般会被忽略掉。理论上,一套拥有容错性的系统,必须在任何可预见的故障发生时,始终能自动找到替代路径来绕开故障,继续正常工作。
虽然系统在设计时已经验证过面对突发故障的抗压性,并且有一定预案处理故障,但是缺乏在大流量、有故障情况下的演练,所以往往在故障来临时,需要用一些临时手段来弥补预案的不足。因此,我们要有一套常态化的“故障演练”机制与工具来反复验证,从而确保我们的服务能在正常情形下表现出正常的行为,在异常状况下,也要有正确、可控的表现。
我们参考ChaosMonkey系统的架构和混沌工程的原理,研发应急容灾故障演练系统,逐步实现对移动各种云上业务系统的常态化应急容灾演练,以提高云上业务系统的健壮性,为用户提供更高的可用性。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论