採用サイトはこちら>

監視システム実装のススメ

はじめに

みなさんは『監視』と聞いて何を思い浮かべますか?

  • 最近は街中の至る所に設置されている監視(防犯)カメラ
  • プールサイドで高い位置から安全を見守る監視員さん
  • 24時間365日でシステムをNOCやSOCの監視センター …etc

いずれも人や物、システムの安全を見守るイメージが浮かんできますね。
弊社の中で監視と言えば、システムを監視する監視システムです。
自社内のシステム監視の実装はもちろん、お客様のシステムやサービスを見守るための監視システムのご提供も行っております。

そこで本記事では、監視システムについて、以下の内容をご紹介したいと思います。

  • 監視システムの重要性
  • 監視システムで何ができるの?
  • 運用方法や他サービスとの連携事例

共通する悩み

まず監視システムのご説明をする前に、直近でお客様から伺った”お悩み話”をご紹介します。


稼働中の機器の異常事態に気がつけない

運用している機械が自社内に設置されていれば良いですが、近くに設置されておらず、なかなか見に行くことができない環境で運用されている事業者さんも多くいらっしゃると思います。
あるお客様では、商用で稼働中のサーバーのファンが1つ壊れていることを知らずに1年以上も稼働を続けていたそうです!
久しぶりに本体を見たら正面のLEDが赤色に…。幸いにも、機器故障やシステム障害になる前に対処はできたとのことですが、こういった故障が原因で重大障害に発展するケースはよくある話で、何が起こってもおかしくはない危険な状態でした。

帯域を増やしたのに効果がでない・・・

ユーザトラフィックの増加や通信品質の向上を目的に行う帯域の増強。
帯域を増やしたにも関わらず、まったく効果が感じられなかったそう。
なぜだろう、、、と原因を探すべく、システムのあらゆる箇所を調べた結果、なんと、通信経路の別の回線にて、トラフィック量が帯域増強前の値まで減少していることが判明したのです。(この回線も同様に増強しなければならなかった)
トラフィックの状態を細やかに監視できていれば、もっと早く原因を突き止めることができて、すぐに対処ができたんだろうな、、、と、とても苦労されたみたいでした。


上記はほんの一例ですが、システムを適切に監視していないと、機器のパフォーマンス低下サービス品質の低下など、問題が起こっていても、なかなか気がつくことができません。
最悪の場合、顧客退会などのレピュテーションリスクも危惧されます。

おそらくこういったお悩みを抱えている事業者様は多いと思います。
そして皆さんが抱えるお悩みはきっと共通しているはず。

監視システムを導入することで、こういった問題が起こった際には、迅速に検知することができますし、検知が早ければ初動のスピードも上がり、迅速に復旧のための対応に移ることができます。
また、場合によっては、検知内容から推測して、問題を未然に防ぐこともできると考えております。

監視システムで何ができるのか?

さて、監視システムを導入することで、何ができるでしょうか。

実機でコマンドを打って表示されるものは見られますし、GUI画面で表示されるものも見られます。
スイッチのポートを流れるトラフィック量も、機器が生きているのか/死んでいるのかも、、、極論を言ってしまえば、『なんでもできる』かもしれません。
#あまり豪語しすぎると構築してもらう技術メンバーに怒られそうですが…笑

監視の内容は色々な実装できますので、ご要望の多い定番の監視内容を簡単にご紹介いたします。


1.リソース監視

こちらは主に、機器のCPUやメモリ、ディスク使用量などを監視するものです。
何らかの影響によりメモリの枯渇やCPUの高騰が発生してハングアップしてしまった、いつの間にかディスク容量がいっぱいでデータが保存できなかった・古いデータから消えてしまった、なんてことが発生する可能性があります。
リソース監視で機器の状況を可視化、異常時の検知をすることで、障害時の対応や重大なシステム障害を未然に防ぐことができると考えます。

2.死活監視

こちらは読んで字のごとく、機器やサービスが正常に動いているかを監視するものです。
機器本体に対するpingの応答や特定ポート番号へのアクセスに対する応答を確認することで、正常性を継続的に確認します。
稼働しているかしていないかを確認するので、ある意味一番重要な監視かもしれません。

3.トラフィック監視

ここではネットワークのトラフィック監視としてご説明します。
トラフィック監視は、主にスイッチ等のポートを流れるデータ量を取得し、現在値・最大値・平均値を確認します。
在宅も日常となった今、トラフィック量の増加が著しい事業者様も多いと思います。
また、DDoSなどの攻撃トラフィックも深刻化しており、トラフィックの傾向を把握することは必要不可欠だと考えます。
トラフィック監視では、上限のしきい値を設定することにより、帯域増幅の計画や攻撃トラフィックを即座に検知することもできますし、下限のしきい値を設定することで、ユーザが利用できない状態(サイレント障害の場合が多い)が発生した際にも、素早い検知をすることができます。


上記の様々な監視は、SNMP(Simple Network Management Protocol)を使用して行う、ポーリング監視やトラップ監視であったり、Syslogメッセージを使用したログ監視により実現していきます。
また、監視設定で設けたしきい値を超えた場合に、特定のアクションを自動的に実行するなんてこともできちゃったりします。
#監視についてのもう少し詳しい紹介は、技術メンバーの記事にてご案内できればと思います!

お客様のシステム環境やサービス内容に応じて、最適な監視内容を組み合わせながら、お客様のシステムをあらゆる状況からお守りする監視システムをご提供できたらと考えております。

監視システムの運用と他サービスとの連携

監視の重要性や種類はわかったけど、どうやって監視していくの?となりますよね。
最後にこの辺りをご説明いたします。

弊社では、基本的に、Zabbixという監視ソフトウェアを使用し、監視システムを構築します。#Zabbixの説明はこの場では割愛させて頂きます。

監視データの取り扱い方法としては、基本的に以下2つの方法で行うことができます。

Zabbixにログインして、監視状況やグラフ(要設定)にて確認
しきい値超えや通知設定をしたものはメールで届く

このようにして

  • 能動的にZabbixへログインし、各機器から取得したデータを確認
  • 受動的にZabbixからのメールを受信し、各機器からの通知を確認

ということが可能となります。

しかし、、、
障害(もしくは前兆)が発生し、1分1秒を争うような緊急事態ではどうでしょうか。

  • すぐにログインできる環境があるのか?
  • 受信したメールに気がつくことができるのか?

今度はこういった不安要素が浮かび上がってくると思います。

障害発生時には、いかにして迅速な検知迅速な対応をおこなえるかが肝となります。

そこで!弊社としては、以下のソリューションとの組み合わせもおすすめをしております!


警告灯ソリューションとの連携

まずは、ご存じの方も多いと思いますが、監視との連携の元祖とも言える警告灯(パトランプ)ソリューションとの連携です。
代表的なものでいうと、20年以上の歴史を誇る、株式会社アイエスエイ社の警子ちゃんではないでしょうか。(進化を続け今は7世代目のようです!)
弊社でも、同社の弟分であるメル丸くんを愛用しておりました。

こちらの仕組みは至ってシンプルで、何らかのトリガー(警子ちゃんはPingやSNMP Trap、メル丸くんはメール)を元に、警告灯や警告音でお知らせするというもの。
シンプルでいて視覚的・聴覚的に確実に気づくことができる優れものです。

Slackとの連携

続いて、数年前から爆発的に流行しているコミュニケーションツールのSlackです。
アプリケーションの設定にもよりますが、通知の観点で言えば、メールとほぼ大差はないかもしれません。
しかし、メールと決定的に違うのは、アプリ上でやり取りがリアルタイムに複数人で同時に可能なことであることと考えます。(しかも複数人でミーティングもできる)
障害発生時のチーム連携は必要不可欠ですので、見やすさや連携のしやすさから、これを機に導入を検討してみるのも良いかもしれません。

Slack(+Squadcast)でのアラート対応風景。
アラートに対してスレッドでやり取りができるのがとても便利ですよね。

Squadcastとの連携

こちらは、Squadcast社が提供する自動電話発報ソリューションです。
メールやSlackとは違い、設定した条件をもとに、システムから自動的に電話が着信し、アクションを起こすまでは永遠と着信をし続けてくれるというもの。
メールやアプリ通知とは違い、否応なしに反応せざるを得ない状況となるため、緊急時の検知という意味では他に勝るものはないと考えます。
通知方法もかなり柔軟に設定することができ、例えば以下のように運用することも可能となります。

  • 1ヶ月ごとにシフトを組み、複数人に対して輪番で発報
  • 機器種別(ネットワークやサーバなど)で対応する人員を分けて発報

などなど、組み合わせは自由に組み替えることができ、もちろん単純な1st→2ndで順番に発報するような簡単な設定も可能です。
深夜帯に通知を見逃してしまったご経験のある方は、こちらのご検討もおすすめいたします。


上記のソリューションに関する詳細の説明は、技術メンバーの記事でご紹介ができればと思いますので、ご興味がありましたらぜひ読んで頂けますと幸甚です。

おわりに

監視システムの実装についてご紹介をしましたがいかがでしたでしょうか。
導入はしたいけど、監視は敷居が高い…と思われている方も多くいらっしゃる印象があります。
そんな時こそ、ぜひ弊社までお気軽にご相談ください!
お客様の環境に合わせたご提案ができればと思います。

本件に関するお問い合わせはこちら