タグ

監視に関するyouheyのブックマーク (19)

  • 完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ

    こんにちは、Hazama チームの萩原(@hagifoo)です。 ハードウェアは故障し、ソフトウェアにはバグがあり、運用ではミスがおきるもの。もちろん、障害が発生しないのが理想ですが人間が作ったものに完璧はありません。そこで、障害の前兆や発生を捉え、その詳細を運用チームに知らせるための監視システムが必要となります。cybozu.com でも以下のようにありとあらゆるものを監視するシステムを構築し日夜監視を行なっています。 今回は、そんな cybozu.com の監視(モニタリング)システムについてお話しします。 cybozu.com と障害 監視システムの設計 3つの監視 外形監視 症状監視・リソース監視 ログ監視 その他の監視 モニタリングフレームワーク 誰が監視者を監視するのか? まとめ cybozu.com と障害 まずは、監視対象である cybzou.com について説明します。

    完璧な監視システムの作り方 in cybozu.com - Cybozu Inside Out | サイボウズエンジニアのブログ
    youhey
    youhey 2013/10/29
  • 今日から業務で使える17の運用系Linuxツール、そして円環の理

    運用系ツールのつもりが、新人さんに伝えたい「円環の理」資料になってしまいました。 “qpstudy 2013.04”の @zembutsu LT 発表資料です 『qpstudy3周年記念LT大会 〜新人さん、業界にようこそ!〜 with ビール』 http://www.zusaar.com/event/613004� 共有したかった事 ・2013年、這い寄る混沌・ガラケーは衰退しました ・基コマンドの連携は必須 ・時系列リソース監視が鍵 ・仲間達と協力する心も大切Read less

    今日から業務で使える17の運用系Linuxツール、そして円環の理
  • GrowthForecast - Lightning fast Graphing / Visualization

    GrowthForecast is a web tool that let's you graph all sorts of metrics via a WebAPI. Our simple API let's you create and update charts in real time, customize your charts through a Web interface, and create charts that combine multiple metrics. You can graph your MySQL data with 1 line of code $ crontab -l */5 * * * * curl -F number=`mysql -BN -e 'select count(*) from member' game` http://example.

  • 今後の負荷を RRDTool を使って予測してみよう

    斎藤です。 今日は、RRDToolを使って、今後かかる負荷を手軽に予測する方法をご紹介します。あわせて、プログラムと連携して性能限界を越えそうなサーバがあるかを判定してみます。人手ではまかないきれない数のサーバに対して、一台ずつ問題の予兆を調べるときなどにお試しください。 ※CentOS 6.3 (64bit) + RRDTool の2013/2/20頃の最新ソースを用いて試しています 「限界」を早く知りたい! ITインフラを運用している方の多くは、Cacti, Munin等で負荷を日々モニタリングされているかと思います。モニタリングしたデータを用いて今後を予測する際、どのようにされていらっしゃいますでしょうか?描かれたチャートの動きをもとに、経験と勘を駆使して「ヨイショ!」っとされている方も、いらっしゃるのではないでしょうか。 特に、ディスク容量やネットワークトラフィック等、根的な対策

  • Nagios × boundioを使った鬱陶しいアラートの作り方 β

    fujya.shです。はじめての人は、はじめまして!そうじゃない人はお久しぶりです。 最近暑いですね。サーバールームの温度も少し上がってきたので、あぁ当の夏がやってきたんだなと実感できる今日この頃です。 今回はboundioというKDDIウェブコミュニケーションズが提供している電話APIサービスを使って少しもにょもにょしてみたいと思います。 ■アラートメールがジャンジャン来るとむしろ気づかない。じゃあ電話じゃない? 運用しているサービスが増えてきたり、サーバーの台数が増えてくるとアラートメールがジャンジャンきたりしますよね?来ならばそういった場合にアラートの原因をすぐさま対策するか、しきい値の変更を実施すれば良いのですが時間的な制約で次週へ持ち越し・・・なんて事も稀にある話です。 そんな時にメールボックスがパンクしてしまい、ほんとうに大事なアラートに気付けない事もあるって話を聞いたり聞

  • 【Nagios集中講座 第8回】Nagiosの監視結果をMySQLに格納するNDOUtilsとは?

    前回は、Nagiosのオブジェクトのうち、ホスト、サービス、コマンドについて簡単に説明しました。 https:… 前回まででNagiosの特徴、インストール方法、設定ファイルといったNagios体のひととおりの説明が出来たと思っています。今回からは、Nagiosの周囲にあるものたちを説明していこうと思います。 まずは、Nagiosの監視結果をMySQLなどのデータベースに格納するNDOUtilsについてです。 NDOUtilsは先述のとおり、Nagiosとデータベースのインタフェースです。使用できるデータベースはMySQLですが、PostgreSQLについてもベータ版扱いでサポートしています。 上図のとおり、NDOUtilsはNagiosからのアウトプットしか扱うことが出来ません。つまり、監視結果ファイルをファイルではなくてMySQLに格納できるというだけです。 設定ファイルのかわりにM

    【Nagios集中講座 第8回】Nagiosの監視結果をMySQLに格納するNDOUtilsとは?
  • 【Nagios集中講座 第7回】その他のオブジェクトとテンプレートについて

    前回はNagiosのディレクトリ構造とファイルの役割について説明しました。 https://inoccu.co… 今回は、残るオブジェクトについて見ていくことにしましょう。 ホストグループとサービスグループ ホストグループはホストを束ねるもの、サービスグループはサービスを束ねるものです。いずれも複数のホスト、サービスを紐付けることができますが、ホストやサービスの方も複数のホストグループ、サービスグループに所属することができます。つまり、N:Nの関係にあるということです。 define hostgroup{ hostgroup_name linux-servers alias Linux Servers members localhost } ホストグループ、サービスグループで設定可能な項目は、名称と所属するホスト、サービスの指定が目立つくらいで、ほんの僅かの項目しかありません。(ホストグル

    【Nagios集中講座 第7回】その他のオブジェクトとテンプレートについて
  • 【Nagios集中講座 第6回】ホスト、サービス、コマンドについて知ろう

    前回はNagiosのインストールを行いました。 https://inoccu.com/blog/2012/05… 今回は、そのファイルの中でも特に重要なオブジェクト設定ファイルについて、詳しく説明していきます。 オブジェクト設定ファイルと、オブジェクトの種類 オブジェクト設定ファイルには、特に決まったファイル名はありません。nagios.cfgで設定されたファイルもしくはディレクトリ以下のファイルが読み込まれるだけです。オブジェクト設定ファイルは具体的には下記のようなものです。 define host{ use linux-server host_name localhost alias localhost address 127.0.0.1 check_period 24x7 check_interval 5 max_check_attempts 10 check_command che

    【Nagios集中講座 第6回】ホスト、サービス、コマンドについて知ろう
  • 【Nagios集中講座 第5回】Nagiosのディレクトリ構造とファイルの役割を知ろう

    今回はNagiosのインストールです。 稿執筆時点での最新版は3.4.1ですが、日語化パッチがないので3.… /usr/local/nagios配下のディレクトリ構造は下記のようになっています。 bin ・・・実行ファイル etc ・・・設定ファイル include libexec ・・・プラグイン sbin share ・・・Web画面(結果表示)のCGI var ・・・ロックファイル、ログファイル、監視結果ファイルなど さらに、varディレクトリは下記のような構造です。 archives ディレクトリ ・・・nagios.logアーカイブ rw ディレクトリ ・・・nagios.cmdパイプ(後述)がある spool ディレクトリ ・・・Nagiosが内部的に使用 nagios.log ファイル ・・・Nagiosのログファイル nagios.lockファイル ・・・Nagios

    【Nagios集中講座 第5回】Nagiosのディレクトリ構造とファイルの役割を知ろう
  • 【Nagios集中講座 第4回】Nagiosをインストールしよう

    今回はNagiosのインストールです。 稿執筆時点での最新版は3.4.1ですが、日語化パッチがないので3.3.1を使います。 ちなみに、私のさくらVPS環境(Scientific Linux)では、EPELリポジトリ経由で3.3.1のパッケージインストールが出来るようです。ただ、日語化の都合もあるので、ソースから入れることにします。 ファイルの取得 wget http://prdownloads.sourceforge.net/sourceforge/nagios/nagios-3.3.1.tar.gz wget http://prdownloads.sourceforge.net/sourceforge/nagiosplug/nagios-plugins-1.4.15.tar.gz wget http://ftp.momo-i.org/pub/other/nagios-jp-3.3

    【Nagios集中講座 第4回】Nagiosをインストールしよう
  • 【Nagios集中講座 第3回】Nagiosの特徴を知ろう

    前回までの2回でネットワーク監視の必要性と分類について説明しました。 今回からは、Nagiosそのものの説明に入ろうと思います。 Nagiosはデータベースを使わない Nagiosはデータベースを使いません。これは、Nagiosの大きな特徴だと思います。 Nagiosを導入する際に必要なものはせいぜいWebサーバくらいで、ふつうのLinuxサーバにApacheが入っていれば、その程度で動作してしまいます。 データベースがなくて、どうやって監視対象機器や監視方法の設定、監視結果の保存を行うのだろう?と思うでしょう。Nagiosはデータ管理をすべてファイルベースで行っています。設定するのもファイル、監視結果もファイルにあるわけです。 また、ファイルベースだと監視対象機器が大量になった場合に、ファイルの読み込み速度がボトルネックになるのではないか?と不安になるかもしれません。しかし、私の環境(さ

    【Nagios集中講座 第3回】Nagiosの特徴を知ろう
  • 【Nagios集中講座 第2回】ネットワーク監視の分類

    前回はネットワーク監視の必要性について説明しました。 今回は、ネットワーク監視について、もう少し詳しく見ていくことにします。 まず、監視にはアクティブ監視とパッシブ監視の2種類があることを押さえましょう。 アクティブ監視は、監視サーバ側が起点となって監視を行います。PINGはアクティブ監視の代表格です。 パッシブ監視は、監視対象となっている機器が起点となって、監視サーバに対して自分の状況を報告します。 アクティブ監視のメリットは、構造が単純で、監視対象機器側での準備が不要なことが挙げられます。また、監視を行う時間(例えば平日のビジネスアワーだけなど)や監視間隔、監視内容が監視サーバ側で完全にコントロール出来ることもメリットです。 パッシブ監視のメリットは、監視サーバ側の負荷が低いことが挙げられます。アクティブ監視ではPINGを打つと10秒程度は結果待ちの時間が発生します。しかし、パッシブ監

    【Nagios集中講座 第2回】ネットワーク監視の分類
  • 【Nagios集中講座 第1回】ネットワーク監視の必要性

    仕事でNagiosに触れるようになって、はや1年が経ちました。 最初は調査としてひととおり動作させてみたり、データの流れを追っかけて内部構造を理解したりといったことを続けていたのですが、最近になってついにNagiosベースの監視システムの開発も始まりました。 今後しばらく付き合うことになるだろうNagiosについて、このブログでも格的に触れて行くことにしようと思います。 まずは、Nagiosってなんだ?ってことですよね。 Nagiosはオープンソースのネットワーク監視ツールです。Linux上で動作します。多くのLinuxディストリビューションではパッケージとして準備されています。日での採用実績としては、ネットなどで見た限りでは、はてな、mixiなどがあり、GREEも独自監視システムに移行する前は使っていたようです。いずれも数百〜数千レベルのホスト数での監視を行っていることから、大規模監

    【Nagios集中講座 第1回】ネットワーク監視の必要性
  • HPのサーバのハードウェア(RAIDの状態)を監視する

    森川です。 今回はハードウェアRAIDの状態をSNMPを使用して監視する方法の紹介です。 当然といえば当然ですが、ハードウェアRAIDをしている場合に、ハードディスクが壊れたことを検知できないというのは、致命的です。 それを検知する方法の紹介です。サーバは日HPのML115 G5、OSはCentOS 5を使用しています。ハードウェアRAIDはSmartアレイ E200を使用しています。(Debianの場合に同様の方法で検知する方法はよくわかりません。。。) まずは、準備としてSNMP関連のパッケージを入れてしまいましょう。 さっそくですが、SNMPでRAIDの状態監視を行うために、ハードウェア(Smartアレイ E200)のMIBを手に入れる必要があります。 hpacucliのインストール MIBやコマンドラインからRAIDの状態を見るためのツール一式がHPからRPMとして提供されている

    HPのサーバのハードウェア(RAIDの状態)を監視する
  • 15分で始めるmonitによるサーバ監視

    サーバ管理者の間ではプロセス監視なら「daemontools」が定番ですが、個人的には設定が面倒で(慣れればどうという事は無いのですが)あまり利用していません。シャノンではプロセス監視の新定番として「monit」を激しくお勧め致します。設定が簡単でそれこそ誰でもプロセス監視ができる代物です。 総合監視デーモンとしてファイルシステムからHTTPレスポンス内容・プロセス監視などの機能を持っています。GPLライセンスでLinux/BSD/Solaris上で動作可能です。CentOSならDAGリポジトリからyum installもでき、configも簡潔ですので15分程度で導入ができます。

  • Teeny Nagios - Nagiosのスマートフォンビューを作ったよー - (ひ)メモ

    自分の場合、iPhoneでNagiosを見たい場合というのは、 アラートが飛んできたので状況を確認したい →ざっと状況をつかみたいので、一覧性の高いビューがいい 即時対応は必要なさそうなので、とりあえずアラートを止めたい →ホスト単位、またはサービス単位で「Schedule downtime」したい ぐらいなので、それに特化したスマートフォンビューを作りました。 プロジェクトホーム http://hirose31.github.com/teeny-nagios/ レポジトリ https://github.com/hirose31/teeny-nagios Mobile Safariで通常のNagiosのページを見てもいいんですが、操作性、一覧性がイマイチだなーと思ったのが作った動機です。 ホーム。ざっくり状況を確認するのに。 ホストの一覧。黄色はwarningが、赤色はcriticalが出

    Teeny Nagios - Nagiosのスマートフォンビューを作ったよー - (ひ)メモ
  • Nagios 3翻訳プロジェクト Wiki

    Nagios 3翻訳プロジェクト このページはNagios 3の翻訳のドキュメントをまとめたページです。 現在、コンテンツを徐々に公開をしていっています。 Nagios 3の翻訳ドキュメントについてはNagios 3翻訳ドキュメントをご覧ください。 Nagios 1と2に関してはこちらか、下記のリンクをご覧ください。 Nagios 2日語ドキュメント Nagios 1日語ドキュメント お知らせ 第1回X-TRANS & M5 ジョイントセミナー「オープンソースを利用してWindows サーバを監視してみよう!」 ->終了しました 第1回セミナーで使用した設定ファイルwをアップロード致しました nagios設定ファイル LINK Nagios.org 株式会社エクストランス X-MON

  • サーバ監視に超使える〜topコマンドのまとめ:phpspot開発日誌

    サーバ監視に超使える〜topコマンドのまとめ サーバを運用しているとよく使うtopコマンドですが、標準のtop以外にも色々便利なものがあるのでまとめてみました。 ボトルネックといえば、ネットワーク、ディスクIO、スワップ、CPU、メモリといったものが関連しますが、ツールで視覚化することでより分かりやすい対策がとれますね。 htop こちらも、通常のtopよりもさらに多数の情報を表示してくれるツール。 CPUやメモリの状態が視覚的にグラフで表示されていたり、複数CPUがある場合もそれぞれに利用率を表示してくれてわかりやすいです。 pstreeで表示するようなツリー+topコマンドのような表示も t を押せば切り替えられます。 公式サイト上にある128コア積んだマシンのhtop結果が面白い。 次のようにすべてグラフで表示されているため、128コアあったとしても瞬時に負荷が把握できますね。 io

    youhey
    youhey 2010/12/22
    サーバ稼働状況の監視に便利なもろもろtop
  • ライブドア様、KLab合同勉強会を開催しました

    こちらのブログでは初めましてになります。 yokogawa-kです。 このブログで前回勉強会の報告をさせていただだくようになってからすでに半年が過ぎ、朝夕もめっきり冷え込む季節になりましたね。 みなさん風邪などひかないようにしっかりと体調管理しましょうね。 さて、今回は10/22にライブドア様と合同勉強会を開催させて頂きましたので、その様子を報告させていただきます。 KLabセッション(1) 「FlashLiteとわたし」 まずは弊社の高田による発表です。 ソーシャルアプリで使われるFlashを生成するための、FlashLite1向けコンパイラを開発したのでその概要について説明させていただきました。 FlashLite2/3向けのコンパイラはすでにありますが、FunctionやArrayが使えないなどと制約が多いFlashLite1向けのコンパイラをどのように作ったかが見所にな

    youhey
    youhey 2010/11/06
    FlashLite1向けコンパイラを開発したのでその概要について説明
  • 1