SREとは何か
SRE(Site Reliability Engineer)は、ソフトウェアの「信頼性」をエンジニアリングする職種だ。Googleのベン・トレイナーらが定義した概念で、「運用業務をソフトウェアエンジニアリングで解決する」という哲学が中核にある。
伝統的な運用エンジニア(オペレーター)が「手作業でサーバーを守る」のに対し、SREは「自動化と仕組みで運用業務を消す」。具体的にはSLO(Service Level Objective)の設定、エラーバジェット運用、ポストモーテム文化、信頼性のためのソフトウェア開発を行う。
SRE・DevOps・インフラエンジニアの違い
| 職種 | フォーカス | 起源 |
|---|---|---|
| SRE | 信頼性、SLO、エラーバジェット | |
| DevOpsエンジニア | 開発と運用の融合、CI/CD | 米国の運動論 |
| インフラエンジニア | サーバ・ネットワーク・基盤 | 伝統的なIT |
| プラットフォームエンジニア | 開発者体験、内部基盤 | DevOps発展形 |
実態としては企業によって境界が曖昧で、SRE職の求人にインフラ業務も含まれることが多い。
SREの主な仕事内容
| 領域 | 業務内容 |
|---|---|
| SLO設計 | サービス品質目標の定義、SLI測定 |
| エラーバジェット運用 | リリース速度と安定性のバランス調整 |
| 可観測性 | メトリクス、ログ、トレース、アラート設計 |
| 障害対応 | インシデント対応、ポストモーテム |
| 自動化 | トイル削減、運用業務のコード化 |
| 信頼性のための開発 | 自前ツール、Chaos Engineering |
| キャパシティプランニング | スケーリング設計、コスト最適化 |
トイル(Toil)の削減が中心命題
SREの仕事の評価軸として最も特徴的なのが「トイル(Toil)」の削減だ。トイルとは「手作業で、繰り返し発生する、本質的価値を生まない作業」を指す。Googleでは「業務時間のトイル比率を50%以下に抑える」がSREの目標値となっている。
SREに必要なスキル
| スキル | 重要度 | 内容 |
|---|---|---|
| Linux/ネットワーク | 必須 | TCP/IP、DNS、Linux内部 |
| クラウド(AWS/GCP/Azure) | 必須 | 主要サービスの設計と運用 |
| プログラミング | 必須 | Go、Python、Rustで自動化ツール開発 |
| 可観測性ツール | 必須 | Prometheus、Grafana、Datadog、OpenTelemetry |
| インシデント対応 | 必須 | ランブック、ポストモーテム、根本原因分析 |
| SLO設計 | 必須 | SLI測定、エラーバジェット運用 |
| 分散システム理解 | 推奨 | CAP定理、結果整合性、サーガパターン |
| Chaos Engineering | あると有利 | Gremlin、Chaos Mesh |
プログラミングできないSREはありえない
DevOps以前の運用エンジニアと最大の違いがこれ。SREは「運用業務をソフトウェアで解決する」職種なので、プログラミング能力なしには成立しない。Go、Python、Rustなどで自前ツールを開発できることが必須条件だ。
SREの年収相場
| 経験段階 | 年収レンジ | 想定企業 |
|---|---|---|
| ジュニアSRE(1〜3年) | 500〜750万円 | Web系、SaaS |
| ミドルSRE(3〜7年) | 750〜1,200万円 | メガベンチャー、上位SaaS |
| シニアSRE(7年以上) | 1,000〜1,800万円 | 上場テック、外資 |
| スタッフSRE/プラットフォームリード | 1,500〜2,500万円 | 上位企業 |
| 外資テック(Senior以上) | 1,800〜4,000万円 | Google、Stripe、Datadog等 |
SREは2020年代に最も需要が伸びた職種のひとつで、平均年収は同経験年数のバックエンドエンジニアより10〜20%高い傾向にある。
SREのキャリアパス
| 次のキャリア | 内容 |
|---|---|
| SRE → プラットフォームエンジニア | 開発者体験方面 |
| SRE → アーキテクト | 全社的な信頼性戦略 |
| SRE → セキュリティエンジニア | クラウドセキュリティ |
| SRE → エンジニアリングマネージャー | マネジメント |
| SRE → CTO/VPoE | 経営参画 |
SREになるには
- バックエンドかインフラで実務3〜5年:システムを構築・運用した経験
- SREの教科書を読む:『Site Reliability Engineering』(Google本3部作)
- 可観測性ツールを実務で使う:Prometheus、Grafana、Datadog
- 個人プロジェクトでChaos Engineering体験:擬似的な障害注入の経験
- SRE職に転職/社内異動:明確に信頼性領域を担当するポジション
よくある質問
Q. インフラエンジニアからSREへ転身できる? A. できる。ただしプログラミング力(Go、Python)の習得が必要。
Q. SREとDevOpsエンジニアはどちらが上? A. 上下関係はない。SREは「信頼性」、DevOpsエンジニアは「開発・運用プロセス」を主軸とする別職種だ。
Q. SREはオンコール(夜間対応)がある? A. 多くの企業で発生する。ただし、トイル削減と自動化が進んだ組織ではオンコール頻度は減る。
まとめ──SREは「壊れない仕組み」を作る職種
SREの本質は、壊れたものを直すことではなく、壊れる前提でシステムを設計することにある。完璧な可用性は不可能だと認め、エラーバジェットの範囲内で許容する。リスクを定量化し、自動化で覆い尽くす。あなたが「サービスが落ちた朝、誰よりも先に原因を3つ思い浮かべられる」なら、SREの素養はすでにある。