*

改善していける監視を目指して 第一回

公開日: : クラウド, ネットワーク

ネットワークG 平(ひら)です。

Bit-isle promptに記事を寄稿するにあたり、新しい取り組みや外部
での活動だけでなく、現在のビットアイルサービス全般の運用におけ
る取り組みについて書きたいと思いました。

私が書けるのは主にクラウドサービスの運用に関するごくごく一部に
なりますが、諸先輩方からの教えや、現場の皆さんからの意見をベー
スに改善を重ねている、状態監視(イベント監視)について記載して
いきたいと思います。イベント監視に限っても取り組み自体が多岐に
渡っているので、何回かに分けて書いていきます。

おことわり

なお、世の中では当然のように行われていることも含まれているかと
は存じますが、その点はご勘弁下さい。また、まだ目指している段階
の内容が幾つか含まれております。実装が完了していない部分につき
ましては、実装をお待ちくださいますようお願い致します。

監視の目的

まず第一回目は、何を目指して監視の仕組みを作っているか、という
ポリシーについて書きます。

私にとっての監視は、(最終的には)人を幸せにするためにあります。
大げさかもしれませんが、折角仕事として監視を作っていくのですか
ら、以下に挙げるような方々を幸せにするよう心掛けています。

  • サービスをご利用のお客様
  • 24時間365日の運用を行っている部門メンバー
  • 通常メンテナンスを行う部門メンバー

こういった関係各位を幸せにするためには、以下のようなことが大切
であると考えています。

  • わかりやすい
  • つかいやすい

非常にざっくりした書き方になっていますが、この2点を出来る限り
実現していくことが、監視を改善していくことだと考えています。

わかりやすい監視

わかりやすい監視の例として、以下のように考えています。

  • 作業による誤報等が少ない。
  • サービス名やフロア(ロケーション)情報が見やすい。
  • 既知のアラートと新規のアラートが明確に分離される。
  • 監視インフラはシングルで、壊れた時の対応(急いで直す)も明確。

わかりやすい監視によってサービス影響範囲を迅速に特定出来れば、
それだけお客様への通知も高速化出来、障害を収束させるために掛
かる時間も短縮できます。

また当然誤報が少なくなれば、アラートの信憑性が向上し、運用メ
ンバーの皆さんへの負荷も軽減されます。

つかいやすい監視

次に、つかいやすい監視を目指すための取り組みの例には、以下の
ようなものがあります。

  • 可能な範囲で、アラートの対応フローが自動化されている。
  • 運用作業の際、アラートを抑止対象が限りなく少ない。
  • 作業対象によっては、アラート抑止をしなくてよい。
  • アラートの抑止が1つのユーザインターフェースで行える。
  • アラートの抑止を細かい単位で掛けられる。

おわりに

文字ばかりの羅列になってしまいましたが、今回は監視を構築する
際に考えている2つの大きな柱について述べました。次回は、わかり
やすい監視に必要なポリシーについて、記事を書いていきます。

関連記事

cloud-mon

改善していける監視を目指して 第二回

ネットワークG 平(ひら)です。 第一回では、主にクラウドサービスの状態監視(イベント監視)に

記事を読む

kousei

Juniper FireFlyでJUNOSと仲良し

ネットワークG 南部です。 普段からネットワークに触れていることを楽しんでいるのですが、最近の

記事を読む

ispっぽく

Juniper FireFlyでJUNOSと仲良し その2

ネットワークG 南部です。 前回は2台のubuntu間でpingが届くところまで確認しましたが

記事を読む

構成図

Softlayer Direct Link を smokeping で測ってみた ~その1 構成~

こんにちは。 ネットワークGの藤岡です。 昨年 IBM が Softlayer を買収したニ

記事を読む

構成図

Softlayer Direct Link を smokeping で測ってみた ~その2 インスタンスの作成~

こんにちは。 ネットワークGの藤岡です。 前回に引き続き Softlayer についての記事

記事を読む

no image

誤解しがちなVMware等のHyper VisorのHAの期待効果

VMware 等の Hyper Visor の HA 冗長構成では MTBFを改善できない。

記事を読む

awssummt

新入社員がAWSサミットに参加してきました。

こんばんは、最近配属が決まったばかりのビットアイル新入社員です。 先週7/17、18に品川で開

記事を読む

techops

システム運用サービスで必要なこと

こんにちは。ビットアイルの 大野 です。 本日は ITシステムにおける一連のライフサイクルの中

記事を読む

no image

ビットアイル・エクイニクスのエンジニアブログです。データセンターの最前線から様々な情報をお伝え致します。

構成図
Softlayer Direct Link を smokeping で測ってみた ~その2 インスタンスの作成~

こんにちは。 ネットワークGの藤岡です。 前回に引き続き So

構成図
Softlayer Direct Link を smokeping で測ってみた ~その1 構成~

こんにちは。 ネットワークGの藤岡です。 昨年 IBM が S

cloud-mon
改善していける監視を目指して 第二回

ネットワークG 平(ひら)です。 第一回では、主にクラウドサービ

cloud-mon
改善していける監視を目指して 第一回

ネットワークG 平(ひら)です。 Bit-isle prompt

ispっぽく
Juniper FireFlyでJUNOSと仲良し その2

ネットワークG 南部です。 前回は2台のubuntu間でping

→もっと見る

PAGE TOP ↑