分散システムとポエム

Cloudflareの障害に関するポストモーテムを読んだ

Cloudflareの障害に関するポストモーテムが公開されていたので読んでみた.

Post Mortem on Cloudflare Control Plane and Analytics Outage

概要

  • DCの電力供給に原因で障害が発生した.
  • 17分間DC内の電力供給が停止していた.
  • 3箇所あるDCのうち残り2つでも継続動作するHAが組んであった.
  • 基本的に冗長構成を組んでいたが,当該DCに依存したサービスが残っていた.

感想

DCレベルで冗長化していても,実際にDC単位で落として試験しなければわからない問題があることに気付いた.カオスエンジニアリングで障害影響なくテストするかは難しいと思った.Disaster Recoveryの観点でどこまで設計するのか,どのようにテストするのかは課題の一つになると思った.このあたりは研究分野として面白いのかもしれない.

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です