タグ

operationに関するdefiantのブックマーク (81)

  • scriptとpsacctでオペレーションログを記録する | DevelopersIO

    scriptは、実行コマンドとその結果をそのままテキストファイルに保存するコマンドです。 一方、psacctはバイナリファイルにコマンドの実行ログのみを保存するサービスです。 scriptによるログの保存 scriptコマンドで作業ログを記録でも紹介されていますが、scriptコマンドを利用するとコマンドの操作ログをファイルに記録することができます。このコマンドを利用し、SSHでログインした後のコマンド操作を記録できます。 SSHログイン後に、この設定を有効にするために /etc/profile (または ~/.bash_prrofile)の末尾に以下のコマンドを追加します。 # output operation log P_PROC=`ps aux | grep $PPID | grep sshd | awk '{ print $11 }'` if [ "$P_PROC" = sshd:

    scriptとpsacctでオペレーションログを記録する | DevelopersIO
  • クラウドのノイジーネイバー問題を解決する動的スケジューラー - Pepabo Tech Portal

    こんにちは。3球目攻撃を仕掛けるときは、ボールが戻ってくることを考えずにフルスイングします、 P山 です。今日はGMOペパボでOpenStackを利用したプライベートクラウドを運用する中で発生した、ノイジーネイバー問題と、それをいかに解決したのかを紹介します。 ノイジーネイバー問題 昨今のクラウドサービスで起動するVMやコンテナは一つの物理サーバーを共用して起動されることが多く、物理サーバーのCPUやメモリはハイパーバイザー、OSのスケジューラーなどのプロセスが、それぞれのVMやコンテナにリソースを配分しています。その際に、例えばある物理サーバーに同居しているVM AとVM Bが存在するとして、どちらかのVMが大量にCPUリソースを消費した場合に、VM同士でCPUリソースの競合が発生してしまい、それぞれのVMに対して十分なCPUリソースを割り当て出来ない状態が発生します。このように、一つの

    クラウドのノイジーネイバー問題を解決する動的スケジューラー - Pepabo Tech Portal
  • Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開

    ※岡、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか? コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。 そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実

    Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開
  • https://www.nic.ad.jp/ja/materials/iw/2016/proceedings/d2/d2-2-yazawa-2.pdf

  • その運用自動化では行き詰まる 〜「つながらない」「つたわらない」「つみあがらない」を防ぐために〜 /20180712-janog42

    2018年7月12日、三重県津市で開催のJANOG42ミーティングでの発表資料です。 その運用自動化では行き詰まる 〜「つながらない」「つたわらない」「つみあがらない」を防ぐために〜 https://www.janog.gr.jp/meeting/janog42/program/OPE 詳細: https://www.opslab.jp/publish/20180712-janog42.html 以下の方々と議論し、多くの知見を得ることができました。(敬称略) - 長久 勝 (国立情報学研究所) - 今井 祐二 (株式会社富士通研究所) - 畠山 慎平 (エヌ・ティ・ティ・コミュニケーションズ株式会社) (運用設計ラボ合同会社 波田野裕一)

    その運用自動化では行き詰まる 〜「つながらない」「つたわらない」「つみあがらない」を防ぐために〜 /20180712-janog42
  • 次世代監視の大本命! Prometheus を実運用してみた - Qiita

    こんにちは!freeeでインフラゾンビをやっている @sugitak です。ゲームではレベルを上げて物理で殴る派です。 freee ではたまにインフラエンジニアの数が減るのですが、その減ったインフラエンジニアはインフラゾンビへと進化し、社内を闊歩します。インフラゾンビは主に開発チームに所属して、アプリっぽいインフラの仕事をインフラからアプリ側へと持っていきます。デプロイとか、Dockerとか、Jenkinsとかの、いわゆる DevOps 系のところですね。こうすることで開発者は手を出せるものの自由度が増えるし、インフラはより来のインフラとして純度を上げていける、 so, win-win ってわけです。 さて、そんなわけで監視です。freee Engineers Advent Calendar 2016の9日目の記事として、 Prometheus による監視が最高なのでみんなもっと使おうと

    次世代監視の大本命! Prometheus を実運用してみた - Qiita
  • なぜ「システムが無事に動いている」ことの価値は理解されないのか

    最近はあまり技術的な仕事をしていないんですが、実は私は元々DBエンジニアです。 OがつくDBとか、PがつくDBとか、mがつくDBとかをいじくって、クエリを書いたり、テーブルの設計をしたり、パフォーマンスのボトルネックをあれこれ調べて解消したり、INDEXヒントを総とっかえして頑迷なオプティマイザをぶん殴ったりすることが主なお仕事でした。今でもたまーにそういうことをします。 同業の方であればお分かりかと思うんですが、DBのパフォーマンスは凄く唐突に、かつ多くの場合極端に落ちます。そして、DBのパフォーマンスが落ちると物凄く広範囲に影響が及びます。 アプリケーションサーバ、重くなります。クライアント、ろくに動かなくなります。お客様、切れます。カスタマーサポートにはわんさか電話がかかってきます。 ただ「遅くなる」だけでも十分に影響は甚大なのですが、それ以上のトラブルが発生するとまあエラいこっちゃ

    なぜ「システムが無事に動いている」ことの価値は理解されないのか
  • dstatの万能感がハンパない - (ひ)メモ

    サーバーのリソースを見るにはグラフ化は重要ですが、推移ではなくリアルタイムな状況、例えば秒単位のスパイキーな負荷を見るには、サーバー上でvmstatやiostatなどの*statファミリーを叩く必要があります。 さて、vmstatはメモリの状況やブロック数単位のI/O状況は見られますが、バイト単位のI/O状況やネットワークの送信、受信バイト数を見ることはできません。 # vmstat 1 procs -----------memory---------- ---swap--- -----io----- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 3 1 0 4724956 355452 726532 0 0 54 484 3 3 1 0 99 0 0 2 0 0 47

    dstatの万能感がハンパない - (ひ)メモ
  • etckeeperで設定ファイルのバージョン管理を始めよう

    斎藤です。こんにちは。 今日は、etckeeperを用いて、設定ファイルをバージョン管理する方法を説明します。設定ファイルの書き換えで辛い目に遭う前に、どうぞお試しください。 ※CentOS 6.4, Ubuntu 12.04 LTS, etckeepr 1.7を基準に説明します etckeeperとは etckeeperは主に/etc配下をVCS(Version Control Systems)を用いてバージョン管理します。実態は、gitやmercurialのwrapperとなっています。 設定ファイルの書き換えの際に、ファイル名に日付をつけてバックアップしたりする手間を省いたり、誤って書き換えてしまったときのための 保険 として利用する事ができます。 インストール方法 はじめに 先程も述べました通り、etckeeperはVCSのwrapperとして動きます。そのため、インストール時には

    etckeeperで設定ファイルのバージョン管理を始めよう
  • サーバ運用の現場でひたすら監視し続けるエンジニアの手の内のすべて

    2013年3月19日 Tokyo Linux Study #5 #tlstudy の発表スライドです。 ZABBIX(赤) × Munin(緑) 。どうして両方を使う事になったのか?という話しがメイン。 サブタイトル「@zembutsuがホスティングサービスの監視パワーを強化しようとするけどとんでもないことになる話」

    サーバ運用の現場でひたすら監視し続けるエンジニアの手の内のすべて
  • 守る - cybozu.com 運用の裏側

    SAML / OpenID Connect / OAuth / SCIM 技術解説 - ID&IT 2014 #idit2014Nov Matake

    守る - cybozu.com 運用の裏側
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • Linuxのサーバをリモートから強制的にOSリブートする - 元RX-7乗りの適当な日々

    先日、諸々の都合で遠隔にあるテスト環境のサーバ(Linux)のカーネルパラメータを弄っていたのですが、ちょっと設定(メモリまわり)がイキすぎてしまいw、コマンド実行というかforkできなくなってしまった(Cannot allocate memory...)。 んで、shutdownコマンドも実行できなくなったので、直そうと思ったのですが、色々弄った&時間がなかったこともあり、一旦OSを再起動しちゃいたいな、と(汗 が、遠隔にあるサーバなので、物理的な電源スイッチON/OFFができない(厳密には出来る環境ではあったのですが、このサーバはそこに入ってなかったw)。ので、SysRqキーを送ることにした。 やり方 少し無理矢理感はありますが、 # echo b > /proc/sysrq-triggerを実行すると、強制的にリブートがかかります。 ただし、ファイルシステムのsyncとかumount

    Linuxのサーバをリモートから強制的にOSリブートする - 元RX-7乗りの適当な日々
  • Chef-Server/Client で楽をしたい | SawanoBlog 2G

    自動デプロイツールのChefってどうやねんという人向けにこうなるというのを手順無視でお届け。 ちなみに導入するなら初めはServerをマニュアルで入れるのが使っている部品が分かってよい。 迷うCookbookとKnifeのポイント いきなりTIPSだが、Server使用時はこれを思い出すとよい。多分理解が早い。 server.rbの指定のディレクトリにCookbookを置いたら knife upload をしてServerに登録する。 CreateしたCookbookも同様だ、編集したらuploadしよう。 では気を取り直して。 ChefServerのWEB-UIまで頑張って立てよう このようなUIにログインできます。今回使うscreenのcookbookはknifeで追加済み。 ノードはこのように追加する さて、さっきの画面にはノードが居ない。 どうすりゃいいかは、クライアント

  • Googleが開発したMac OS Xアプリ管理システム | エンタープライズ | マイコミジャーナル

    Google Code GoogleからMac OS X向けのパッケージ管理システムがオープンソースソフトウェアとして公開された。Simianと呼ばれるソリューションで、エンタープライズクラスのパッケージ管理システムを提供するもの。Simianの主な特徴は次のとおり。 アプリケーションの新規インストールやアップデートは、1台のMac OS Xマシンに対しても何万台のMac OS Xマシンに対しても実施できる。 イントラネットやVPNで接続されたMac OS Xに対してもセキュリティパッチを提供可能。 迅速な強制インストールも選択性の任意インストールも双方ともに利用できる。 Appleが提供するアップデートとの高い連携性。 追加のサーバインフラを導入したりメンテナンスすることなく高いスケーラビリティを提供。 ターゲットはユーザベース、ホスト名ベース、OSバージョンベースなどさまざまな選択が可

  • 大規模インフラの監視システム | GREE Engineers' Blog

    こんにちは。インフラチームの ebisawa です。 今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための死活監視を意味する場合と、ネットワークトラフィック等のモニタリングのことを意味する場合とがあります。今回の監視は特に後者についてのお話です。大規模なインフラの監視には、やはり特有の課題があります。 どんなツールを使っているのか グリーではサーバの各種リソース使用状況をモニタリングしてグラフ化するためのツールとして、Cacti を利用しています。Cacti は、大変有名なツールなので皆様ご存知かと思いますが、バックエンドの RRDtool で作成したグラフを閲覧するための使いやすいユーザーインターフェイスを備えています。 http://www.cacti.net/ ツールの使

    大規模インフラの監視システム | GREE Engineers' Blog
  • ヤフーにおけるパッケージ管理 - Yahoo! JAPAN Tech Blog

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、R&D統括部 開発推進室 セキュリティプラットフォーム技術の戸田 薫です。 個人的に自宅では、 FreeBSD でよく遊んでいて、FreeBSDのパッケージ管理には、portsnap、portupgrade を利用していますが、ヤフーでは独自の方法で行われます。 その背景としてヤフーには、平均15億以上のPVを支えるためやサービスの付加価値のために何万台ものサーバがあり、サービスやシステムごとに大規模なシステムを構成する必要があるため、一般的なパッケージ管理システムよりもより柔軟で効率的なパッケージ管理が必要となっています。 今回は、ヤフーにおけるパッケージの管理についてご紹介します。 ヤフーインストーラ ヤフーでは

    ヤフーにおけるパッケージ管理 - Yahoo! JAPAN Tech Blog
  • 2年前の障害報告書から学んだAmazon S3の凄さ

    Amazon EC2」は、誤解されている。筆者は最近、そう強く思っている。あなたがもし「Amazon EC2は単なる仮想マシンサービス」と思っているなら、考え直してほしい。Amazon EC2の当の価値とは、実はストレージサービスの「Amazon S3」にある。 最近日でも、Amazon EC2対抗をうたう仮想マシンサービスが増えている。Webサイトからの申し込みだけで利用でき、課金は1時間単位。Webベースの管理ツールから簡単に仮想マシンを起動できて、ロードバランサーなども手軽に設定できる。日のサービスも、仮想マシンに関する機能面ではAmazon EC2に追いつき始めている。 しかし、全く敵わないのが、ストレージサービスであるAmazon S3だ。 Amazon EC2の最大の特徴は、利用者が様々な種類の仮想マシンを、管理ツール上でのクリック操作一つで、素早く展開できることだ。「

    2年前の障害報告書から学んだAmazon S3の凄さ
  • kumofsの死活監視はこんな感じでNagiosでやってます - (ひ)メモ

    分散Key-Valueストア「kumofs」を公開しました! - 古橋貞之の日記 \(^o^)/ kumofsは、弊社のフォトストレージサービス Ficia で現在大絶賛モリモリ稼働中なんですが、その死活監視は自家製の Nagios プラグインで行っています。 というわけで、kumofsをサービスで使いたい人の一助になればと思い、ぼくが実際に行っている kumofs の監視について紹介したいと思います。 サーバノードとマネージャノード サーバノードとマネージャノードの監視には、それぞれのノードに対してステータスを問い合わせるコマンドを発行して、その応答で死活を判断するスクリプトを書いて使っています。 kumofs公開記念ということでgithubにpushっておきました。 http://github.com/etolabo/nagios-check_kumofs 問い合わせの処理は、管理用コ

    kumofsの死活監視はこんな感じでNagiosでやってます - (ひ)メモ
  • ウノウラボ Unoh Labs: サーバのネットワーク速度の調査/測定方法

    こんにちは。kyagi です。先日データセンタ内のサーバ群のうち、なぜか特定の1台だけネットワークの速度が極端に遅いという問題がありました。今回はサーバマシンのネットワーク速度の測定方法と原因についてお話しします。同様のトラブルが発生している方のお役に立てば幸いです。問題解決までの手順としては以下になります。 1. 現在の状態を調べる 2. ハード/ソフト含めて考えられる原因をいくつか挙げる 3. 原因について改善されるまでひとつひとつ検証していく まず現在の NIC の HW 情報とドライバを lspci で調査します。ここでは Broadcom の NetXtreme BCM5722 という NIC を使用していることがわかります。 # lspci -vvv | grep Ether 01:00.0 Ethernet controller: Broadcom Corporation