2020年に、
- [ ] O’Reilly Japan - SRE サイトリライアビリティエンジニアリング
- [ ] O’Reilly Japan - サイトリライアビリティワークブック
- [x] O’Reilly Japan - 入門 監視
2020年段階で
今年は
SRE チームの
調べた
SREチームの 評価に 役立つ レベル別チェックリストとは ?
アセスメントシートや、
チェックリストの リンク集
そもそもこの チェックリストは 何か?ですが、 アセスメント評価に 該当する もので、 以下のような ものとも 関係が ありそうに 思います。 枝葉ではなく、
幹の チェックリスト
リリースのパイプラインだけと いった 作業の 枝葉に 対する チェックリストではなく、 組織の 在り方も 含めた 企業の ITサービス運用に 関する 包括的な チェックリストに 思いました。 実際に
使用する 場合は、 単純な チェックではなく スコア化した ほうが 良さそう
単純なチェックだと、 何故良いと 思ったのか ダメだと 思ったのかが わからないので、 DX Criteriaの 使い 方 - DX Criteria v201912- 「2つの DX」と デジタル経営の ガイドライン の 「はい」、 「いいえ」、 「はい、でも。。」、 「いいえ、でも。。」方式での 確認が 良いように 思いました。 実際に
読んで、 「わからない」と 思う ことが 重要
SRE経験の浅い チームでは、 自分も 含めて 「わからない」と 思う 語句や 概念が 多いです。
まず「わからない」から 始まり、 「意識する」が 第一歩かと 思います。
学習の5段階レベル - NLP学び 方ガイド(NLPとは )|資格セミナー総合情報サイト|協会 公式
SRE の 基本原則
SREの
何らかの
サービス レベル目標(SLO)を 決め(開発、 事業部門の 一部でない 場合は、 これらの 部門の メンバーと 共同で)、 ほぼ 毎月目標を 達成している こと 非難を
伴わない 障害報告書を 記録する カルチャーが あること 本番環境に
おける インシデントの 管理プロセスが 作られている こと (これは 全社的であることが 望ましい)
3つの
サービスレベル目標(SLO)
サービスレベル目標(SLO)以外に、
また、
- [契約トラブル回避の
ススメ つかんで おきたい 「SLA」と 「SLO」のちがい | NTTコミュニケーションズ 法人の お客さま] (https://www.ntt.com/business/services/management/operations-management/global-management-one/column/sla_slo.html) SaaSスタートアップが
知って おくべきS LAと 利用規約の 勘所―2020年の 改正民法も 踏まえて― | 法律事務所ZeLo・外国法共同事業 SLA、
SLOの サンプル
明確なSLAの 定義が あると 認識しているのは、 AWS、 GCP等の サービスです。
SLOが 毎月達成されているか 確認するには?
何らかの
計測の
【
また、
OSSの
非難を 伴わない 障害報告書とは ?
これは、
また、
SRE文脈以外でも
- Google re:Work - ガイド: イノベーションが
インシデントの 管理プロセスとは ?
そもそも
インシデントとは 何か? システム開発と
して インシデントを どう 捉えるか 難しい 感じが しますが、 個人的には 起きた 出来事(ヒヤリ・ハット)を インシデントと 考えました。 おそらく、 この 基本原則に 関する 「インシデント」は、 システム障害に あたる ものも 含んでいそうに 思います。 以下、 医療系の インシデントの 扱いが 参考に なりましたが、 システム開発だと 「アクシデント」と いう 用語は 使わず、 これを 「障害」と 呼んだり 「インシデント」と 呼んだりしていると 思います。
- インシデントをヒヤリハットだと 思っている 人々 この辺りの
区別は 企業に よって 違い、 また、 言葉の 定義を しっかりすべきです。
また、以下の 記事のように ポストモーテムに あたる もので、 外部に 報告が 必要な ものと 内部だけで 止める ものを 分けて 書くのは 重要に 思いました。
- ポストモーテムにおける 根本原因分析 - 夜は 寝る ポストモーテムは
ヒヤリハットな インシデントに 対しても 書く。 外部に 報告が 必要な 場合は、 ポストモーテムも インシデント報告書も 書く。と いう 運用が 良いと 思います。 管理プロセスに
ついて この辺りは、
ITILの インシデント管理プロセスが 参考に なります。
- インシデント管理とは?5項目で 理解する インシデントと 問題の 違いと 理想的な 管理フロー - ITIL用語解説 - デジタルプラクティス ただ、
プロセスと して 重厚すぎるので 自社向けでの テーラリングは 必要で、 テーラリングの 際は SRE本の 14章が まさに 管理プロセスの 話で 参考に なりそうです。
GoogleのSREの 本「第14章 インシデント管理」を 読みました。 : 読書ブログ @kuromitsu_ka
初級者チームの チェックリスト
初級者チームの
人員の
配置転換と 採用の プランが あり、 予算が 承認されている こと
SREワークブックの
SRE人材の
「SREが
スタッフを
配置した チームが 何らかの サービスの オンコール サポートを 担当するとともに、 少なくとも システム運用の 負荷の 一部を 担っている こと
システム運用の
負荷の 一部を 担うとは ? システム運用作業を
実施する ことに 思いました。 オンコール
アラートに
対して 受電し、 エラーの 内容確認を 行う 作業です。
リリース プロセス、
サービスの セットアップと ティアダウン(そして 可能なら フェイルオーバー)の ための マニュアルを 整備している こと
セットアップとは
? 事前準備の
ことです。 Junit3は setUpメソッドで テストの 事前準備を 行います。 ローカル開発環境の
構築手順を 持っている こと、 Infrastructure as Code とも 関係が ありそうです。 Infrastructure as Codeの
留意点と メリット ~サーバー更改プロジェクトへの 適用で 得られた 知見・実感 - アイマガジン|i Magazine|IS magazine ティアダウンとは
? 事後処理の
ことです。 Junit3は tearDownメソッドで テストの 事後処理を 行います。
SLO の
一部と して カナリア リリースを 評価している こと
カナリアリリースに
ついての 文書リンク 3分で
わかる カナリアリリース | 日経クロステック(xTECH) Googleと
Netflix、 カナリアリリース分析ツール 「Kayenta」 オープンソースで 公開。 新たに デプロイした リリースに 問題が ないかを 自動分析 - Publickey ブルーグリーンデプロイメント
カナリアリリースと
ブルーグリーンデプロイメントは 関係が あると 思いましたので、 記載して おきます。 **AWSで ブルーグリーンデプロイを 実践してみた | キャスレーコンサルティング株式会社 Blue-Green Deploymentに
おける 注意点 | Developers.IO 後以下の
教材は 良い 演習資料に 思いました。 Wicket での
ブルーグリーンデプロイメント 個人的に、
WIcketが 馴染み 深い フレームワークなので、 Wicketで ブルーグリーンデプロイメントを 実施する 際の 関心事を 記載して おきます。 ページキャッシュ対策
DataStoreの
設定が デフォルトの ファイルシステムを 使う 挙動である 場合、 ブルーグリーンデプロイメントに 制約が 生まれます。 以下Githubリポジトリの 実装が 参考に なりそうです。 RoadRunner120485/wicket-redis-session-test
StateLessページに
すると いう 対応も 考えられます。
必要な
ときの ために ロールバック メカニズムを 用意している こと (ただし、 たとえば モバイル アプリケーションが 関係する ときは 簡単ではないことが 考慮されます)
ロールバックメカニズムとは
? 所謂、
ロールバックを する ための 仕組みです。 スナップショットを
取得、 ロールバックの ための 仕組みが 手動で 構築されている ことが 最低限で、 そこから 自動化などが 進められるのが 理想です。 Kubernetesで
Deploymentの Rollback | SIOS Tech. Lab CodeDeploy の
Blue/Green デプロイで ロールバックを 実行する | Developers.IO DevOps 技術: 継続的デリバリー | Google Cloud
Spinnakerを
使った カナリーリリースの 自動評価 #spinnaker #kayenta - My External Storage モバイルアプリケーションに
ついて モバイルアプリの 場合は、 インストールしてもらうと いう 状況に なるので、 再インストールを ユーザーに してもらう 必要が あり、 ロールバック時の ハードルが 高いです。 【iPhone】
アプリの バージョンダウン方法 iOS 10以降、 iTunes 12対応版 | 楽しく iPhoneライフ! SBAPP 導入したら
導入したで 問題は ありそうですが、 PWAと いう 選択肢も 有りかもしれません。 プログレッシブWebアプリ(PWA)と
して 配布 - OutSystems キャッシュの
更新を どうするか、 どうやって クリアするのかと いう 課題は あります。
完全で
なくても、 運用手順書(プレイブック / ランブック)が あること
SREと
少なくとも
年 1 回は 理論的な (ロールプレイングに よる )ディザスタ リカバリ テストを 実施している こと
以下が
SRE が
プロジェクトの 仕事を 立案、 実施している こと (開発者の 支持を 必要としない 運用負担軽減の 取り組みなど、 開発者から 直接見えない 部分でもかまいません)
プロジェクトの
定期的に
(つまり 毎週 )インシデント対応手続きの 訓練を する 程度の オンコール
全くオンコールが
SRE の
統括責任者 (つまり CTO)が 審査、 承認した SRE チーム憲章
SREではなくても
一瞬インセプションデッキが
問題点や
目標に ついて 議論し、 情報を 共有する ための SRE と 開発リーダーの 定例会議
サービス単位に
- SREチームが
複数ある 場合、 その 複数チームが 定例会議を 行っている - サービスの
開発チームと サービスの SREチームが 定例会議を 行っている
を観点に
開発と
SRE の 共同作業に よる プロジェクトの 立案、 実施。 SRE の 貢献と プラスの 効果が 開発の リーダーにも 見えていなければなりません
SREチーム自体の
チェックリストは
O’Reilly Japan - SRE
実践時は、
以上です。
コメント