2020年3月に出版された『システム障害対応の教科書』。これまで暗黙知だったシステム障害対応を体系的にまとめ、個人・組織のシステム障害対応力向上を目的とした解説書です。2024年4月には時代の変化に伴って内容を増補した改訂新版が出版されました。
IT関係の書籍の中でも類書が少なく、実務上、避けては通れないテーマを扱っている本書。著者の狙いと、実際に現場で活用している読者の視点が重なることで、より本書の価値が見出されるのではないでしょうか。
今回は、『システム障害対応の教科書』の著者である木村 誠明さんと、「SREなどの領域では必読書と言っていい」と語るココナラ・Head of Information 川崎 雄太さんの対談をお届けします。
<プロフィール>
木村 誠明さん
2002年、野村総合研究所(NRI)に入社。金融系業務システムの開発・保守運用に携わり、さまざまなシステム障害対応を経験。ITサービスマネジメントの専門家として、社内外のシステム運用の改善に携わるとともに、障害対応力向上のための研修講師も手掛けるNRI認定ITサービスマネージャー。
川崎 雄太さん
さまざまな組織・システムでインフラエンジニアとしてのキャリアを重ね、2020年10月、ココナラ入社。現在はHead of Informationとしてプロダクトインフラ・SRE、社内情報システム、セキュリティなどを幅広く担当し、エンジニアマネージャーとして組織の成果の最大化とインフラを起点としたQCD向上に取り組んでいる。
障害対応の暗黙知を形式知にするために
――木村さんが、本書を執筆した意図について教えてください。
木村 システム障害対応の教育は暗黙知が多く、経験頼みの育成になっているためです。
ITサービスにはシステム障害がつきものですが、そうしたシステム障害対応の現場では必要なノウハウが体系化されていないことがほとんどでした。システム障害は突発的に起こるため、事前の反復訓練も難しく、ネガティブな内容になるためどうしても責任追及の場になりがちです。心理的安全性が低く振り返りの学習もしにくいという面もあります。
だからこそ、本という形で障害対応時の基本動作と現場マネジメントをまとめておくことで、暗黙知が形式知になり多くの人に役立つものになるのではと考えて執筆しました。元々私も障害対応をしており、同僚や部下にそうしたノウハウを教えるために作ったマニュアルが大元になっています。僕が「本当に欲しかった本」を自分で作った形ですね。
――川崎さんは本を実際に業務に役立てられていると伺いましたがいかがでしょうか。
川崎 2020年に本書に出会って現在までおおいに活用させていただいています。というかこの本がなかったらどうなっていたか怖いくらいです(笑)
私は現職の前に数社経験しており、インフラ領域をずっとやっていてオンプレミスとクラウド両方経験しました。障害対応にはずっと携わってきていたんですが、やはり先輩社員のOJTに依存していて、教育する人によって質と量も違うし、それがあまり公にならず“秘伝のタレ”的に伝わってくるところがありました。そうした時期に障害対応を体系的に整理した本書に出会って非常に参考にさせていただきましたね。
木村 そう言ってもらえて非常にうれしいですね。おっしゃる通り、いろんな現場にそこだけの“秘伝のタレ”が熟成されて眠っているという状態で、そこをいかに標準化していくかは本書執筆時にも非常に苦労した点でもあります。
川崎 サービスの業態も会社によって違いますし、労働環境も変わってくるのでそこを整理するのは難しいですよね。障害対応をマニュアル化している会社もあればそうでない会社もありますし。
その点、『システム障害対応の教科書』は“教科書”の名の通り障害対応の手順から役割分担など必要なことがしっかり網羅されているので、業種問わずシステム運用されている方に役立つ本ですね。システムに少しでも関与されている人は必ず読むべき本と言ってもいいと思います。
――川崎さんが本を読んで特に印象的だったところを教えてください。
川崎 やはり障害対応をハンドリングする担当者を表す「インシデントコマンダー」というキーワードですね。
今までも障害対応の旗振り役はいましたが、「この人はどういう役割で何をする人か」が言語化されていないゆえにうまく行かない現場も多くあったと感じています。
そこが「作業担当は何をするのか」「CIOレベルは何をするか」などと本書で整理されているので、旗振り役のインシデントコマンダーがどこまでやればいいのかがはっきりして非常に役立ちました。インシデントコマンダーの立ち位置によって作業担当の生産性やインシデントの解決速度も変わってくるので、自身がそうした旗振り役になるうえでも立場の重要さを学びましたね。
――木村さんは本書で、インシデントコマンダーという言葉をどのような意図で使ったのでしょう。
木村 障害対応の現場にはよく、ホワイトボードの前で大声を出してその場を取り仕切っている人物がいました。ですが、そういう人の役割の名称がなかったんですよね。それゆえその人が何をするかがふわふわしていたので「インシデントコマンダー」という言葉で整理しました。
言葉自体はSREの本にも出てきたりはするんですが、やはりGoogleを対象にしたものが多くSIerの事情は考慮されていなかったんです。そのあたり日本土着の事情をうまく本に落とし込もうと工夫しましたね。
常に改善し続ける状態を作り出すことが完成形のひとつの形
――川崎さんは実際に障害対応をされていると思うんですが、対応時にどういう悩みがあったか教えてください。
川崎 「自分は結局何をやればいいんだっけ」という悩みは大きかったですね。
特に若手のときなんかは、先輩社員がいろいろ動いている中で「自分は何ができるのか」「発言が邪魔にならないか」と心理的安全性も取れないので非常に苦労しました。そうした対応についても本書第7章の「組織の障害対応レベル向上と体制作り」でレベル分けでアセスメントされていたので安心しました。
――そうした現場での対応について、川崎さんが現在社内のシステム障害対応において気をつけられていることはありますか?
川崎 障害が発生したときに特定の人たちが疲弊しないような工夫はしていますね。ランブックを作ってインシデント発生時にSlackでアラートとともに通知することですぐに障害解決に向けるアプローチ設計も心がけています。
ただ、現場の教育でいうとまだまだできていないところも多いです。新しい障害が出てきたら、これは初めてのものだという判断はできるんですが、そこからどうしていくかという判断は難しくどう切り分けていくかは検討が必要です。
たとえば「5分調査してわからなかったらエスカレーションしてみる」など、そうした部分のルールは改めて本書を読んでみて、まだまだできてないなと実感しているところです。
――システム障害における教育について、木村さんはどう考えていますか?
木村 本書の序章にも書いているんですが、障害対応の育成は本当に難しいんですよね。未知かつ非定型の対応になってきますし、基本的に二度と同じ障害は起きないはずなので反復訓練もできませんし。計画的に教育を進めることができないので、そういった部分に難しさがあると思います。
あと障害対応はそのときにある最大戦力を投入するのが一般的なので、現場にベテランがいたらベテランが対応して新人に役割が回ってこないことも多いです。じゃあ新人がいつやるのかというと、現場にその人しかいない緊急時だったり。
――そうしたぶっつけ本番な状態になりがちなため、教育の難しさにはうなずけます。
木村 改善というところだと、障害対応後の振り返りが肝心です。「その障害がどうして生まれたのか」や「なぜテストで検出できなかったのか」、「実際の障害対応のやり方がよかったのか」などを振り返ることがノウハウの蓄積にもなります。
どうしても障害対応すると現場は疲弊するので、振り返りをせずに終わってしまうという現場は多いです。それゆえ本当に改善をしっかり続けるということが大事です。障害対応の完成形を導くのは難しいですが、常に改善し続ける状態を作り出すことが完成形のひとつの形であるとは考えていますね。
――やはり現場の肉体的精神的負担は大きいですよね。技術的にもですし、心の問題としてもすごく難しいところがあるのだと感じます。
川崎 やはりみんなワーっとなりますからね。
木村さんのおっしゃる通り、障害対応はそのときの最大戦力でなくてはいけないんです。演習も本書を読んで実践するようにしていますが、それだと最大戦力を前提としたものなので、夜中など人がいないときに障害が起きた場合、どう分配していくのかはまた考え直さなければなりません。そうした最悪のケースを想定した部分は最近振り返って対策を考えています。
木村 本を読んで演習をされていると聞くと著者としてはうれしいですね。
そうした障害対応訓練は本当に大事です。訓練のシナリオの立て方や前提部分を改善していくと、最悪の事態のときどうするかという話も詰めていけると思います。
――ちなみに川崎さんはいつ頃から演習をされるようになったのでしょうか。
川崎 2024年からですね。まず前段のフローを整えることから始めて、演習は今年からという感じです。
ポストモーテムで振り返りはするんですが、再発防止側に基本的に向いてしまうと思っています。対応の良し悪しは人に特化するのでやりづらい部分もあるんですが、シャドーイングをしっかりやらなきゃなと今は思っています。
「このタイミングのハンドリングよくなかったな」「こういう順番でやったほうがよかったな」など障害対応における人の動きも点検していくために現在進行系でシャドーイングを進めている最中です。
木村 著者冥利に尽きますね……。
――これから川崎さんが取り組みたいことはありますか?
川崎 やはり経営層はシステムって動いていて当たり前と思っているもので、それは基本的には正しいんですが、障害対応をスピーディーにすることがいかにユーザーの利益につながるかを経営層にアピールしていくのがこれから大事だなと思っていますね。この本のおかげでそうしたアプローチもしやすくなって感謝しています。
本質的なところで言うなればNetflixのカオスエンジニアリングが最適だと思っています。机上でやっていることが本番で上手くいくのかを検証するために、最終的にはここを目指したいなと。
役職問わずシステムに関わるすべての人に読んでもらいたい本
――木村さんは読者の方に本書をどのように使ってほしいですか?
木村 本書はシステム運用に携わる方に向けて広めに書いているので、エンジニアはもちろん、エンジニア以外のIT部門の方にも手に取ってもらい障害対応の基本を学んでいただけるとうれしいです。実際の対応はしない人でも、指示やハンドリングの理解は深まるはずです。
ベテランやマネジメント層だったら本の内容を若手に伝えて知識の底上げをするほか、組織づくりや組織の改善推進の助けになれたらいいなと思っています。川崎さんがおっしゃっていたように、経営層に運用のことを理解させるための資料として使っていただくのもいいですね。
――川崎さんはどうでしょう。
川崎 繰り返しになる部分はありますが、今できていることの点検にも使えますし、これからやるべきことの認識合わせを多方面の人と行えるツールにもなるのでそのあたりの活用も期待できますね。
それに、障害対応について体系立てて行っていない会社はまだまだ多いのではないかと思っています。この本がそういう人たちに届けば、日本のシステム運用レベルは格段に上がっていくはずなので、役職問わずシステムに関わるすべての人に読んでもらいたいです。
――最後におふたりとも、何か伝えたいことがあればお願いします。
木村 業界全体として、障害対応のナレッジ共有は今後の課題だと感じています。
やはり障害対応の情報ってみんな隠したがるんですよね。プロダクトを紹介するような情報は多く出ていますが、この障害でどういうことが起きて、どういう苦労をしたのかを公開している会社は本当に少ないんです。そこをもっと風通し良く共有できるようになれば業界全体の障害対応力はどんどん底上げされていくはずです。
ですので、この本を読んだあとに自分たちで実践してみて、「やってみた結果こうなった」ということを公開して話せるように業界が変わっていくといいなと感じています。
川崎 私はこの本をめちゃくちゃ活用していますし、この本がなかったらシャドーイングなんか絶対やってないよなと振り返っています。
改善サイクルのスピードも品質も頻度も上がり、自社の障害対応品質も向上しました。本にはフロー図のサンプルなども記載されていて、すぐに使えるナレッジがたくさん詰まっています。
実際のインシデントの動き方や、個々人の認識の仕方など障害対応は曖昧なところが多々あります。そうした曖昧なところを明確にするためにどうするかが書かれているのがこの本なので、ぜひ活用いただきたいですし、僕自身がこの本をめちゃくちゃいいということを今後も声高に言っていくつもりです。
執筆:神田匠