【#も読】AIによってSREの仕事はなくなるのか──現場から考える「協働」の未来(@isaoshimizu)のトップ画像

【#も読】AIによってSREの仕事はなくなるのか──現場から考える「協働」の未来(@isaoshimizu)

投稿日時:
清水 勲のアイコン

株式会社MIXI / みてね事業本部 みてねプラットフォーム部 部長

清水 勲

Xアカウントリンク

「あの人も読んでる」略して「も読」。さまざまな寄稿者が最近気になった情報や話題をシェアする企画です。他のテックな人たちがどんな情報を追っているのか、ちょっと覗いてみませんか?

はじめに

こんにちは。清水(@isaoshimizu)です。
今回は、2025年9月27日に公開された記事「Report Finds LLMs Not Yet Ready to Replace SREs in Incident Management」(日本語訳:LLMはまだインシデント管理におけるSREの代替には至っていない)を読んで感じたことを紹介したいと思います。この記事は、The Adaptavist GroupのVP DevOpsであるMatt Saunders氏によるものです。

以前の「#も読」記事「The Future of Site Reliability: Integrating Generative AI into SRE Practices」でもSREと生成AIについて触れましたが、数ヶ月が経過し、AIの進化も激しい中、今回の記事ではさまざまな調査や実験を基に、SREにおけるAIの有効性をより具体的に考察した内容として、今回の#も読で取り上げることにしました。

AIによってSREの仕事はなくなる?

この半年間のAIの進化は目覚ましいものです。あらゆる分野でAI活用が進み、ツールやLLMモデルの進化も日々見られます。では、SREの分野ではどの程度AIの活用が進み、変化がもたらされているのでしょうか。記事では、「SREの仕事がAIによってどれだけ影響を受けるのか」という問いを立てています。

引用されている記事 “Can LLMs replace on call SREs today?[1]”(LLMは現在、オンコールのSREに取って代わることができるのか?)も興味深い内容で、AIが障害の根本原因分析にどの程度効果を発揮するのかを検証しています。

調査では、Claude Sonnet 4、OpenAI GPT-o3、OpenAI GPT-4.1、Gemini 2.5 Pro、そしてOpenAI GPT-5を使って、実際に障害の根本原因分析を行った結果が示されています。どのモデルも根本原因の究明には至らず、なんらかのヒントを追加することでようやく結果を得られるという状況でした。Claude Sonnet 4では、単一の問題に固執し、他の可能性を探らない傾向があるという結果も興味深いです。

これらの結果から、現時点ではSREの仕事がAIでなくなるわけではなく、仕事の範囲と責任が変化していくと述べられています。SREがAIと競合するのではなく、AIと一緒に問題に取り組む「協働」という姿勢が大事でしょう。多くのAIツールは、人間が操作・承認するように設計されています。自動化や効率化の恩恵は最大化しつつ、最終責任は人間が持つ構造が実務では安全でしょう。

AIによって業務が効率化され、余白が生まれることによって、SREはより創造的な仕事に取り組むことが大事という点にも触れられています。例えば、他チームや他職種へのSREのイネイブリング、AIを活用したツールの開発や導入、より複雑な課題の解決、より戦略的な意思決定に時間を割くことに価値があるのかもしれません。

AIの強いところ・弱いところ

SREがAIと協働するためには、AIの得意分野と苦手分野を理解しておくと、より良い協働ができるでしょう。

記事では、先ほど紹介したように、RCA(Root Cause Analysis)=根本原因分析はAIだけでは難しいのが現状であると述べています。特に複雑な問題の分析は依然として難しいです。このことから、AIがすべての問題を解決できるようになるのはまだ先でしょう。考えられる障害シナリオをAIにヒントとして与えておくことで正解率が向上するケースもありますが、結局のところ、人間が介在しないと良い回答は得られないということです。

そして、国際会議「International Conference on Computational Science」(ICCS 2025)で2025年7月に発表された論文「AIOps for Reliability: Evaluating Large Language Models for Automated Root Cause Analysis in Chaos Engineering[2]」(信頼性のためのAIOps: カオスエンジニアリングにおける自動化された根本原因分析のための大規模言語モデルの評価)にも触れており、根本原因の分析において人間とAIの正答率を比較しています。

やや古いモデルを用いた実験ではありますが、人間が追加のコンテキスト情報を提供するなど、人間が介入しないと良い回答は得られないという結果があります。AIに全責任を負わせることはまだ不可能だが、強力な「co-pilots(副操縦士)」として機能しうると述べられています。

さらに記事中では、SAP Technical LeadであるVarun Biswas氏が2025年7月2日に発表した記事「AI and the Future of Site Reliability Engineering: Are SRE Jobs Disappearing?[3]」(AIとサイト信頼性エンジニアリングの未来:SREの仕事は消えるのか?)にも触れられています。

この記事では、SREのコア業務をAIが担い始めており、一部の業務はAIに置き換わりつつあるが、依然として人間のSREのほうが優れている点が複数あると述べられています。

AIは学習済みのことは得意ですが、未知のことには弱く、人間のほうが判断力や即興対応力に優れています。AIが誤診し、クラスタの再起動など不適切な提案を行うことでリスクを生む可能性もあります。

障害が発生した際の危機管理はシニアなSREやインシデントコマンダーが主導することが多く、不確実な状況下での共感力・リーダーシップ・高度な意思決定が求められるといいます。SREにおいては、人間の想像力・判断力・コミュニケーション力をAIが置き換える段階には、至っていないといえるでしょう。

一方で、AIは事前に定義された手順やスクリプトの実行を得意としており、AIによって障害の検知・対応の速度・ドキュメント作成の効率性を大きく上昇させます。監視・分析・修復作業の大部分をAIが担うこともできるでしょう。そして、AIは真夜中のオンコールでも疲れたり、集中力が散漫になったりしないという点では、人間よりも圧倒的に有利です。

まとめ

現時点においては、SREの仕事はAIが活用されていったとしても、現在のAIの能力では根本原因の特定は難しく、この領域においては人間のほうが勝っている、という研究結果でした。しかし、過去の類似ポストモーテムをAIに学習させる、プロンプトを工夫する、今後のモデルが進化することなどにより、SRE領域の業務が徐々にAIに置き換わっていくことは十分に考えられます。繰り返し発生し、手順が定まっている作業に対してはAIが特に有効でしょう。

SREが判断を下すうえでのサポート役としてAIを活用することが、適しているということです。AIの進化は日進月歩であり、数ヶ月後にはSREとAI活用の関係にも大きな変化が起きているかもしれません。引き続き、この領域の進化に注目していきたいです。

清水さんの「も読」過去記事

脚注
  1. https://clickhouse.com/blog/llm-observability-challenge

  2. https://www.iccs-meeting.org/archive/iccs2025/papers/159090307.pdf

  3. https://www.linkedin.com/pulse/ai-future-site-reliability-engineering-sre-jobs-varun-biswas-fwxle/