最近は監視と言っても、サービス立ち上げ時にAWS CloudWatchでお茶を濁したり、そもそもPaaSやLambdaにデプロイしてしまって、単純な死活監視みたいなことは必要なかったりします。
でも、サービスがスケールしてくるとPaaSではコストが合わなかったり、レスポンスタイムが悪くなったり、スロークエリーが発生したりする性能的監視も必要になってきたりします。
皆さんは監視ってどこで習ったんでしょう? 新人のときに配属されたサービスで先輩から教えてもらっとかそういうOJT的に覚えた人が多いんじゃないでしょうか。
こちらの『監視システム実装ガイド』は
監視テクノロジ動向
監視テクノロジ概要
監視テクノロジ基礎
監視テクノロジ導入
監視テクノロジ実装
インシデント対応実践編
監視構成例
がまとめられてて体系的に理解できます。導入まで長いなぁ… 導入と実装とどう違うんだ…ということはさておき。
よくある監視ツールの使い方だけじゃなくて、監視の基礎的な概念やインシデント対応の実際のやり方なんかが載っていて参考になります。
アラート自体は設定されてても、そのアラートは誰が受け取って、誰にエスカレーションして、誰が判断するのかみたいことは決まってなかったりしますからね。
こうした理論を理解して体制を整えておくこともサービス運営には重要だと思いました。
Comments