*

改善していける監視を目指して 第一回

公開日: : クラウド, ネットワーク

ネットワークG 平(ひら)です。

Bit-isle promptに記事を寄稿するにあたり、新しい取り組みや外部
での活動だけでなく、現在のビットアイルサービス全般の運用におけ
る取り組みについて書きたいと思いました。

私が書けるのは主にクラウドサービスの運用に関するごくごく一部に
なりますが、諸先輩方からの教えや、現場の皆さんからの意見をベー
スに改善を重ねている、状態監視(イベント監視)について記載して
いきたいと思います。イベント監視に限っても取り組み自体が多岐に
渡っているので、何回かに分けて書いていきます。

おことわり

なお、世の中では当然のように行われていることも含まれているかと
は存じますが、その点はご勘弁下さい。また、まだ目指している段階
の内容が幾つか含まれております。実装が完了していない部分につき
ましては、実装をお待ちくださいますようお願い致します。

監視の目的

まず第一回目は、何を目指して監視の仕組みを作っているか、という
ポリシーについて書きます。

私にとっての監視は、(最終的には)人を幸せにするためにあります。
大げさかもしれませんが、折角仕事として監視を作っていくのですか
ら、以下に挙げるような方々を幸せにするよう心掛けています。

  • サービスをご利用のお客様
  • 24時間365日の運用を行っている部門メンバー
  • 通常メンテナンスを行う部門メンバー

こういった関係各位を幸せにするためには、以下のようなことが大切
であると考えています。

  • わかりやすい
  • つかいやすい

非常にざっくりした書き方になっていますが、この2点を出来る限り
実現していくことが、監視を改善していくことだと考えています。

わかりやすい監視

わかりやすい監視の例として、以下のように考えています。

  • 作業による誤報等が少ない。
  • サービス名やフロア(ロケーション)情報が見やすい。
  • 既知のアラートと新規のアラートが明確に分離される。
  • 監視インフラはシングルで、壊れた時の対応(急いで直す)も明確。

わかりやすい監視によってサービス影響範囲を迅速に特定出来れば、
それだけお客様への通知も高速化出来、障害を収束させるために掛
かる時間も短縮できます。

また当然誤報が少なくなれば、アラートの信憑性が向上し、運用メ
ンバーの皆さんへの負荷も軽減されます。

つかいやすい監視

次に、つかいやすい監視を目指すための取り組みの例には、以下の
ようなものがあります。

  • 可能な範囲で、アラートの対応フローが自動化されている。
  • 運用作業の際、アラートを抑止対象が限りなく少ない。
  • 作業対象によっては、アラート抑止をしなくてよい。
  • アラートの抑止が1つのユーザインターフェースで行える。
  • アラートの抑止を細かい単位で掛けられる。

おわりに

文字ばかりの羅列になってしまいましたが、今回は監視を構築する
際に考えている2つの大きな柱について述べました。次回は、わかり
やすい監視に必要なポリシーについて、記事を書いていきます。

関連記事

awssummt

新入社員がAWSサミットに参加してきました。

こんばんは、最近配属が決まったばかりのビットアイル新入社員です。 先週7/17、18に品川で開

記事を読む

ispっぽく

Juniper FireFlyでJUNOSと仲良し その2

ネットワークG 南部です。 前回は2台のubuntu間でpingが届くところまで確認しましたが

記事を読む

techops

システム運用サービスで必要なこと

こんにちは。ビットアイルの 大野 です。 本日は ITシステムにおける一連のライフサイクルの中

記事を読む

kousei

Juniper FireFlyでJUNOSと仲良し

ネットワークG 南部です。 普段からネットワークに触れていることを楽しんでいるのですが、最近の

記事を読む

no image

誤解しがちなVMware等のHyper VisorのHAの期待効果

VMware 等の Hyper Visor の HA 冗長構成では MTBFを改善できない。

記事を読む

構成図

Softlayer Direct Link を smokeping で測ってみた ~その1 構成~

こんにちは。 ネットワークGの藤岡です。 昨年 IBM が Softlayer を買収したニ

記事を読む

構成図

Softlayer Direct Link を smokeping で測ってみた ~その2 インスタンスの作成~

こんにちは。 ネットワークGの藤岡です。 前回に引き続き Softlayer についての記事

記事を読む

cloud-mon

改善していける監視を目指して 第二回

ネットワークG 平(ひら)です。 第一回では、主にクラウドサービスの状態監視(イベント監視)に

記事を読む

no image

ビットアイル・エクイニクスのエンジニアブログです。データセンターの最前線から様々な情報をお伝え致します。

構成図
Softlayer Direct Link を smokeping で測ってみた ~その2 インスタンスの作成~

こんにちは。 ネットワークGの藤岡です。 前回に引き続き So

構成図
Softlayer Direct Link を smokeping で測ってみた ~その1 構成~

こんにちは。 ネットワークGの藤岡です。 昨年 IBM が S

cloud-mon
改善していける監視を目指して 第二回

ネットワークG 平(ひら)です。 第一回では、主にクラウドサービ

cloud-mon
改善していける監視を目指して 第一回

ネットワークG 平(ひら)です。 Bit-isle prompt

ispっぽく
Juniper FireFlyでJUNOSと仲良し その2

ネットワークG 南部です。 前回は2台のubuntu間でping

→もっと見る

PAGE TOP ↑