Cloudflareの障害に関するポストモーテムが公開されていたので読んでみた.
Post Mortem on Cloudflare Control Plane and Analytics Outage
概要
- DCの電力供給に原因で障害が発生した.
- 17分間DC内の電力供給が停止していた.
- 3箇所あるDCのうち残り2つでも継続動作するHAが組んであった.
- 基本的に冗長構成を組んでいたが,当該DCに依存したサービスが残っていた.
感想
DCレベルで冗長化していても,実際にDC単位で落として試験しなければわからない問題があることに気付いた.カオスエンジニアリングで障害影響なくテストするかは難しいと思った.Disaster Recoveryの観点でどこまで設計するのか,どのようにテストするのかは課題の一つになると思った.このあたりは研究分野として面白いのかもしれない.
コメントを残す