並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 50件

新着順 人気順

障害対応の検索結果1 - 40 件 / 50件

障害対応に関するエントリは50件あります。 障害運用仕事 などが関連タグです。 人気エントリには 『重大事故の時にどうするか?|miyasaka』などがあります。
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

      重大事故の時にどうするか?|miyasaka
    • 【1月23日追記】12月23日、24日に発生しました障害に関するご報告

      いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。 みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。 本障害につきまして詳細をご報告させていただきます。 概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分 内容: skeb.jpにアクセスできない不具合 原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。 解決: Herokuの一切の利用を中止し、すべてのサーバとシステ

      • 東証の記者会見は「技術がわかる経営者」「受け答えが理路整然」と絶賛する感想が集まる。なお横山CIOは落研出身

        リンク 日本経済新聞 電子版 東証「2日の売買実施は1日19時半めど連絡」 社長会見終了 ■宮原社長「市場預かるものとして責任痛感」■システム再起動なら相当の混乱想定された■終日売買停止で1日の株価は「値つかず」 56 users 236

          東証の記者会見は「技術がわかる経営者」「受け答えが理路整然」と絶賛する感想が集まる。なお横山CIOは落研出身
        • …Outlookの送信メールが……消えた…?(12/24改修されたよ) - Qiita

          はじめに Leverages Advent Calendar 10日目担当の ham です。 今が 12月12日だということは気にしてはいけません。代打です。 Leverages で、セキュリティの責任者としてセキュリティ意識の啓蒙や全社に関わるシステムの改善をしています。 また、前職では、SOC、NOC、BGPの運用などを行っていました。 最近メールについて不可解な問い合わせが増えてきたので、調べたことをまとめます。 追記(2019年12月24日 17:10) 本日 16時頃に Outlookサポートから不具合を改修した旨の連絡が来ました。 私もテストを実施し、Outlook から送信した Re: 【hoge】【fuga】 のメールが Gmail に届くことを確認しました。 メリークリスマス! 追記(2019年12月15日 21:40) 反響の大きさにびっくりしています。茶渡の霊圧を消し

            …Outlookの送信メールが……消えた…?(12/24改修されたよ) - Qiita
          • 障害報告書を書こう! - Qiita

            担当しているITサービスなどに何かしらのインシデントや障害が発生した時に、対処後のアクションとして報告書を提出して事象の内容を報告(レポート)する場合がある。 提出先は会社の偉い人だったりクライアントだったり。場合によってはユーザー向けに発表したり。事の顛末を報告して「今後同様のことを起こさないように努力します、ごめんなさい」をするのだ。どのように再発防止の努力するのかを書くものでもある。 主にクライアント向けのビジネス内容ではあるが、自分が使っているテンプレパターンを共有するので参考にしてもらえればと思う。1 全般的なポイント 心得のようなもの。次の点は留意してて欲しい。 淡々と冷静な説明をこころがける 当然のことながら事実は脚色しない。無駄な修飾も要らない。客観的な事実を簡潔に述べる。 例: ❌「一生懸命頑張って対応したが…」 ❌「寝ないで対応したが…」 ❌「本当の原因は…」 できるだ

              障害報告書を書こう! - Qiita
            • 管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita

              自己紹介 本職のエンジニアではありませんが、ちょっとICT系に詳しそうなやつって感じで、部署のサーバ管理を任されたりもしています。 背景 私の(当時所属していた)部署では、毎年、数週間かけて前年の各人の業務実績をとりまとめて一つの冊子(PDF)にするという仕事があり、この作業を少しでも自動化するため、Webサービスが内製されました。当初は単純に各ユーザが自分の業務実績一覧をテキストで用意してアップロードするというものでしたが、秘伝のタレのように毎年少しずつ改良されたり、大幅に作り直されて別システムから業務データを取り込んでからブラウザ上で編集できるようになったりしつつ、なんやかんやあって私が引き継ぎます。他にやりたい人もなく、ひとり鯖管です。OSはCentOS6でした。 このシステムでは、毎年新しいデータを編集するため、その作業開始時にデータを初期化する必要があります。この作業も自動化し、

                管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita
              • あと2時間でElastiCacheのメモリが枯渇!そのときあなたは何をしますか?

                突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。 さて、この状況におかれたあなたは何をしますか? はじめに モバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。 新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。 この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、 どのような観点で問題を切り分けていったのか、トラブルシュートのプロセス どのような準備(負荷テスト)をしていれば防げるのか という話をし

                  あと2時間でElastiCacheのメモリが枯渇!そのときあなたは何をしますか?
                • 60億円の損害を出した 「DMMブックス」 70%OFFキャンペーンでプラットフォームに何が起きていたか

                  ログ基盤をCloudWatchLogからNewRelic Logs + S3に変えたら 利便性も上がってコストも下がった話

                    60億円の損害を出した 「DMMブックス」 70%OFFキャンペーンでプラットフォームに何が起きていたか
                  • 東証、障害の原因を特定 設定値に不備、切り替え失敗

                    日本取引所グループは同日、調査結果を踏まえ、再発防止策などを検討する調査委員会を設置した。委員長の久保利英明弁護士をはじめ、4人の社外取締役で構成する。 関連記事 東証、10月2日は通常通りの売買へ システム障害を起こし全銘柄の売買を停止していた東京証券取引所は、明日、10月2日は通常通り売買を行うと発表した。 東証のシステム障害、解消は「明日以降」 「バックアップへの切り替え」で異常 東京証券取引所が、システム障害について「明日以降、正常な売買ができるよう対応している」と発表した。 東証にシステム障害 終日、全銘柄売買停止に【更新】 東京証券取引所は10月1日、相場情報に障害が発生したため、朝から全銘柄の売買を停止している。1日は終日売買停止となる。復旧については未定。 “東証を変えた男”が語る、金融業界の伝説「arrowhead」誕生の舞台裏――“決して落としてはならないシステム”がで

                      東証、障害の原因を特定 設定値に不備、切り替え失敗
                    • Webサービスの障害対応のときの思考過程 - ぱいぱいにっき

                      起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。 筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。 これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。 具体的な手法を避けて思考の方法を述べているのは、障害というのはパター

                        Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
                      • 入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean

                        システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門 監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。 入門 監視 ―モダンなモニタリングのためのデザインパターン 作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム オライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。 役割分担の基本 「入門 監視」に

                          入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
                        • 障害対応プロセスを改善してきた話 - 10X Product Blog

                          障害プロセスを改善してきた話 こんにちは。Reliability & Securityチームに所属するSoftware Engineerの@sota1235です。 今回は10X内における障害対応プロセスの改善をご紹介します。 今が完成系ではなく道半ばではありますがこの半年 ~ 1年で大きく進化したので同じくらいのフェーズの会社で困ってる方がいたら参考にしてみてください! ちなみに私ごとですが去年の5/26にこんな投稿をしてたのでやっと伏線を回収する形となります(※ ドヤ顔ではありません)。 目次 こんな感じで紹介していきます。 目次 障害対応プロセスの改善に踏み切った背景 課題1. 障害の報告フォーマットが統一されていない 課題2. 障害報のクオリティの差異が大きく後から振り返りが難しい 課題3. 障害対応者が特定の人に偏る 第一の改善 改善1. 障害報告書のフォーマット更新 改善2. S

                            障害対応プロセスを改善してきた話 - 10X Product Blog
                          • 障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳

                            先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。 障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。 そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。 そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。 今回のスコープの外 実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。 まずissueを作ると良い 本題です。 トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g

                              障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
                            • システム障害対応演習を実施した話|NAVITIME_Tech

                              こんにちは、ネコ派メタラーです。ナビタイムジャパンで地点検索基盤の開発マネジメントを担当しています。好きなバンドは Arch Enemy です。 システム運用に関わる人であれば、「システム障害」というと耳が痛い方が多いかと思います。システム障害は起こさないに越したことはないですが、万が一システム障害が発生したとき、その行動選択はサービスの信頼性を大きく左右することになります。 迅速に復旧させることはもちろんですが、適切な情報公開によってユーザーの不安を払拭するといったコミュニケーションも重要なポイントです。しかし、緊急事態というプレッシャーを受けながら最適な行動を選択することは容易ではありません。 私が所属しているチームでは、Web API サーバソフトウェアから全文検索ミドルウェアまで含めた開発・運用を行っており、幅広いトラブル対応スキルが必要になります。トラブル対応のスキルを持ったベテ

                                システム障害対応演習を実施した話|NAVITIME_Tech
                              • 【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか 〜社内向け障害対応リスト付き〜

                                「なんかアプリでインシデント起きてエンジニアがどこかで対応してるらしいよ」 「インシデント時のお知らせって誰がどうやって出すんだっけ?」 「インシデントの復旧作業って今どれくらい終わってる?」 「あのインシデントって振り返りしたっけ?」 「似たようなインシデント、前も対応したような、していないような」 このような会話に覚えはありませんか? FiNC Technologies社 (以下FiNC) では今まで インシデント対応をしていても自チーム内で対処しようとしてしまい、他の人が気づけないインシデント対応の仕方にフォーマットがなく、迅速な対応やお客様への報告ができないインシデントの振り返りが実施されず、インシデント時の知見が共有されないという問題がありました。 それらの問題を 気が付きやすく、シェアしやすくする = 統一のチャンネルで情報を整理し、そこにシェアしやすい空気を作る何をすべきかわ

                                  【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか 〜社内向け障害対応リスト付き〜
                                • 障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ

                                  8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWS版kintoneのローンチからから2年が経過しようとしています。 この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。 時には本番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。 サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。 そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response(非公式日本語訳版)を読むことにしました。 この記事ではAWS版kintoneで実際に体験した障害

                                    障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                  • KDDI通信障害の報告書で見えた地獄絵図、痛恨のミスから次々と事態が悪化

                                    総務省の有識者会議「電気通信事故検証会議」は2022年10月5日、KDDIが7月に起こした大規模通信障害に関する検証報告書を公表した。KDDI自身がこれまで4度にわたって記者会見を開いて説明しているので全体像は把握していたが、さらに深掘りした興味深い内容となっている。 例えば障害の影響が全国に波及した点。同業他社からは「KDDIはなぜ影響を局所化できなかったのだろうか」と疑問の声が上がっていた。原因は、同社が音声通話用の「VoLTE(Voice over LTE)交換機」のネットワークをフルメッシュ構成にしていたためだった。東西でネットワークを分けるのが一般的な印象だが、同社は「特定の拠点で発生する輻輳(ふくそう)を早期に収束させるため」に全国フルメッシュ構成を採用していた。これが裏目に出た。今後は東西分散構成に変更するという。 検証報告書を読むと、厄介な出来事が次々と発生して事態が悪化し

                                      KDDI通信障害の報告書で見えた地獄絵図、痛恨のミスから次々と事態が悪化
                                    • 【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO

                                      どのような事前準備をしているか 有事の際は想定外のことが発生しやすく、事前準備をしていないと冷静な対応が難しくなります。 いきなりしっかりした事前準備をすることは難しいので、徐々に成熟度を上げていきます。 本章では以下の観点で、事前準備についてご紹介します。 手順書 自動化 訓練 手順書 フローやチェックリストを含む手順書を準備しています。 手順書の内容は後述します。 分かりやすい手順書を準備することも重要ですが、その手順書への導線づくりも大切にしています。 運用周りのドキュメントは数が多く、目的のドキュメントが埋もれてしまい他のメンバーが見つけられない場合があるからです。 周知に加えて、ドキュメントの階層を見直したり、特定チャンネルに手順書の URL をピン留めしておくなど、手順書に辿り着きやすくする工夫をしています。 分かりやすい手順書の書き方については、以下のブログが参考になります。

                                        【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO
                                      • Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです

                                        Webアプリケーションエンジニアをやっていると時たま障害が発生し復旧作業にあたるのだが、人によって「障害対応が得意」だったり「苦手」だったりする。ただ、障害対応時の「良い動き」というのが実際どういうものなのかというのが自分の中でふんわりしていたので、ざっくりはてブで「障害対応」で検索していくつかのエントリーを読んでみたり、自分の仕事での経験を振り返ってみたりして考えたことをまとめてみた。 障害にはフェーズがある 障害対応には複数の役割がある 障害対応をスムーズに進めるための目的は複数ある スキルも必要なので練習していけると良い 初心者でもやれることはある 実際やってみると良さそうなこと 障害対応時にやることをテンプレート化する スムーズに対応に入れる仕組みを整える 障害対応避難訓練 おわり 障害にはフェーズがある 障害対応したことないと、障害には「障害中」「障害中でない」の二つの状態しかな

                                          Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです
                                        • Zennで発生した障害の原因と行なった対策のまとめ

                                          2021/02/24の11時頃〜1時間ほどzenn.devにアクセスしづらい・アクセスできない問題が発生していました。その後も3時間ほど一部のページへのアクセスができない状況となっていました。Zennに投稿してくれた方、見に来てくれた方、ご迷惑をおかけしてすみませんでした。 今回の障害は学びが多かったので、個人の記事として残しておくことにします。 原因 今回の障害は、使用しているクラウドサービスではなく、Zenn自体に原因がありました。 1. KaTeX記法により生成されるHTMLが思った以上に大きかった ZennのマークダウンエディターではKaTeX記法をサポートしています。例えば、$a\ne0$と書くとa\ne0と表示されます。 KaTeXはサーバーサイドレンダリングをサポートしており、KaTeX記法からの数式のHTMLへの変換はサーバーサイドで行なっていました。DBにはマークダウンだ

                                            Zennで発生した障害の原因と行なった対策のまとめ
                                          • より安全にご利用いただけるようになったClassiのご報告と今後の取り組みについて | Classi(クラッシー) - 子どもの無限の可能性を解き放ち、学びの形を進化させる

                                            1.はじめに 2020年4月(昨年)、当社サービス「Classi」に不正アクセスがあった件に関し、過去一年間、弊社はこれを重く受け止め、お客様に安全にClassiをご利用いただく事を当社事業の最優先事項とし、各種対策を年間を通じ実施してまいりました。 今年度も、昨年度から継続して、サービスのセキュリティを重視した全社的な対策を実行していく所存でございますので、以下に発生直後の対応、及び今日までに実行いたしましたセキュリティ強化対策を含めて、今後の取り組みについてご報告いたします。 現在に至るまで同様の不正アクセスは起こっておらず、セキュリティ状況についても外部企業の第三者調査の結果、他社と比較して標準水準以上に強化できていると評価いただいております。また2021年3月のISO/IEC27001に基づく情報セキュリティマネジメントシステム(ISMS)の継続審査 においても、マネジメントシステ

                                              より安全にご利用いただけるようになったClassiのご報告と今後の取り組みについて | Classi(クラッシー) - 子どもの無限の可能性を解き放ち、学びの形を進化させる
                                            • 次世代デジタル保険を支える監視・通知の技術

                                              監視・通知の仕組みの全体像また、弊社では Terraform を用いて IaC ( Infrastructure as Code ) を実現して、各AWSアカウント環境の状態をコードで一元管理していますが、 Datadog の監視項目も Provider が用意されているため、Terraform で管理をすることが可能です。現状はすべての Datadog の監視項目がコード化されているわけではないですが、こちらは随時対応を行っていきたいと思っています。 外形監視外形監視は、WebサイトやAPIエンドポイントが正常に動作していることを、定期的に特定のURLに対して問い合わせをして、期待されたステータスコードや要素を返すことを監視することを目的とします。 弊社では Datadog の Synthetic Monitoring という機能を利用して監視を行っていますが、この機能の特徴としては W

                                                次世代デジタル保険を支える監視・通知の技術
                                              • インシデント指揮官トレーニングの手引き | Yakst

                                                [SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者 翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1496日前 Twitterで報告済み 編集 私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。 これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。 以下は私の書いたトレーニング資料、ほぼそのままです。 あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。

                                                • 正規表現ミスって一晩誰もサービスにログインできなくしてしまった話 - Qiita

                                                  はじめに この記事は、本番環境などでやらかしちゃった人 Advent Calendar 2023の11日目です。 どうも、@_tinojiと申します。実に4年ぶりにアドベントカレンダーに参加しました。 正規表現で1文字消し忘れて、なんぴとたりともサービスにログインできない状態にしてしまったという話をします。正規表現にはまじで気をつけましょうという教訓になれば・・・ 犠牲となったログイン画面 とあるtoBなWebサービスを開発していたときの話です。法人のユーザーが使う管理画面的なイメージです。 当然ログイン機能があって、至って普通なログインなのですが1つだけ特徴がありまして、ログイン画面のURLをアカウントごとに変えています。https://example.com/<uuid>/loginみたいな感じですね。 あまり見ない形式ではありつつも、個別のUUIDを特定されない限りログイン画面に対し

                                                    正規表現ミスって一晩誰もサービスにログインできなくしてしまった話 - Qiita
                                                  • Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開

                                                    ※岡本、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する本連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability(オブザーバビリティ)」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか? コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。 そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実

                                                      Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開
                                                    • 失敗して攻め続けるために - freeeのエンジニアが障害対応で実践していること - freee Developers Hub

                                                      2015年10月入社でコアエンジンチームの@kompiroと申します。普段は下記の3つの業務に従事しています。 お客様が自社の情報を把握するためのデータアグリゲーション機能の開発 マイクロサービスに切り出したデータアグリゲーション機能をEKSに移行 チーム横断で開発者のみんなが開発しやすい環境の構築 そんな私ですが、最近しくじり開拓者のつどいという社内イベントを開催しています。これは障害対応の一環として始めたイベントです。今日はしくじり開拓者のつどいというイベントをみなさまに紹介するとともに、背景となる障害に対する考え方と障害対応の流れを解説します! freeeの開発文化と障害対応 freeeの開発文化 こちら弊社の紹介スライドからの引用です。 freeeのエンジニアチームが大切にする開発文化が言語化されたものが 失敗して攻めよう 何でもやれる、何でもやる 必殺技 カッとしてシュッとやる

                                                        失敗して攻め続けるために - freeeのエンジニアが障害対応で実践していること - freee Developers Hub
                                                      • 今日からできる。初めての障害対応ガイド | DevelopersIO

                                                        はじめに こむろ@札幌です。 今年もまた大きなプロジェクトのサービス運用を担当し、サービス運用経験者としていろんなところに顔を出したりことの多い1年でした。自分自身が障害対応の前線に立つだけでなく、ほかの人の障害対応の手伝いをするなど、いろんな視点で運用の現場に関わってきました。 元々サービスのまともな運用経験ゼロの私が、多様な技術的負債や自分があまりかかわっていないサービスの運用を紆余曲折の結果、抱えるようになって数年経過し、サービス運用にまつわる様々な知見が蓄積しました。2019年の締めにそれらをまとめて文章にしておこうと思います。 今回のターゲットは開発をメインでやっているエンジニアです。運用を経験したことがない人にとっては、障害対応時にどのように立ち回ってよいのかがわからず、なんとなく行動した結果、サービス利用者への障害が長引いてしまう、状況をより悪化させてしまう、といった状態を招

                                                          今日からできる。初めての障害対応ガイド | DevelopersIO
                                                        • 障害対応、どう学ぶ? システム障害との向き合い方 Part1

                                                          2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん(@sinamon129)氏。 講演資料はこちら システム障害との向き合い方 しなもん(@sinamon129)氏(以下、しなもん):お願いします。素敵なキラッとした話のあとにシステム障害の話をします。よろしくお願いします。 しなもんといいます。 今はWebメディアとECをやっているRiLiという会社で取締役CTOをやっています。RailsGirlsのコーチをやったりとかしています。アカウントは@sinamon129でやってるの

                                                            障害対応、どう学ぶ? システム障害との向き合い方 Part1
                                                          • 【ラクス】インフラ運用チームが障害対応時間削減に向けて取り組んだこと - RAKUS Developers Blog | ラクス エンジニアブログ

                                                            はじめに こんにちは。cappy_potterです。 MailDealer と ChatDeaeler という弊社サービスのインフラ運用チームのリーダを担当しています。 現状、これら2サービスで稼働しているサーバの数は、合計で1,000台近くありますが、 これだけサーバがあると、様々な障害も発生します。 中でも、仮想基盤機器やネットワーク機器で障害が発生した場合は、影響範囲が大きくなりやすいです。 主にそういったものに対し、「どうすればチームとして迅速に対応できるようになるか?」ということを考え、実践したことについて紹介したいと思います。 はじめに 過去発生した障害について 周知に時間がかかる要因 各要因への対策 要因①:各自バラバラに対応していて、ムダが生じている 要因②:周知を行う際の目標時間を定めていない 要因③:周知文に記載する内容を都度考えている 要因④:影響範囲特定に必要なアク

                                                              【ラクス】インフラ運用チームが障害対応時間削減に向けて取り組んだこと - RAKUS Developers Blog | ラクス エンジニアブログ
                                                            • トラブル対応中にエンジニアリーダーとして考えていること - Mitsuyuki.Shiiba

                                                              を言葉にしてみようと思った。僕のいる場所での話。ステークホルダーに対する窓口としてプロデューサーがいて、僕が開発チームのリーダーをしてるようなとき。 ## 状況を把握する システムトラブルが発生すると場が混乱してることが多い。色んな情報が混ざるし、色んな人から問い合わせが来たりするし、窓口になってくれているプロデューサーからの説明も省略されていることが多い。このときに一番避けたいのは、ミスコミュニケーションによって本当の問題を見失って無駄な作業をしてしまうこと。 なので、まずは落ち着いて状況を正確に把握する。ちょっとでもはやく解決したいから、その断片的な情報を元に調査に入りたい気持ちになるけど、ぐっとこらえて全体像を把握する。 コミュニケーションで特に気をつけるのは、相手や自分の中にある思い込み。思い込みがあると喋るときには(当然分かってることだよね)と言葉を省略してしまうし、聞くときには

                                                                トラブル対応中にエンジニアリーダーとして考えていること - Mitsuyuki.Shiiba
                                                              • 障害対応という花形 - 毛並みの揃った話はないけれど

                                                                みなさんこんにちは。 私は プレイド のエンジニアの大平(おおひら) (@Victoria_Peak_) と申します。 7年勤めた野村総合研究所を辞め、2018/07〜現在まで 株式会社プレイド で勤務しています。 twitter.com 日々の活動内容(プログラミング・SaaS/SIer・ロードバイク・減量など)をつぶやいたりしておりますので、本エントリを読んで興味を持たれた方は、twitterでフォロー、リプライ、メッセージなどをいただければと思います。 基本すぐに回答します。 今回は下記の本ブログのメインストリームである「SIer/年収1000万を手放した私」シリーズをお休みして、スピンオフとして執筆します。 www.taihey-blog.com 0.エントリ執筆のきっかけは twitter 今回のテーマで執筆しようとしたきっかけは、twitter上のこんなやり取りがきっかけでした

                                                                  障害対応という花形 - 毛並みの揃った話はないけれど
                                                                • 権限をQray -SREへの一時的な本番環境権限付与のしくみ- | メルカリエンジニアリング

                                                                  メルペイSREチームの @tjunです。この記事は、Merpay Tech Openness Month 2020 の19日目の記事です。 今日は、メルペイSREチームのオペレーションのために開発して利用している Qray(クレイ) というツールの話をします。 はじめに メルペイでは、Google Cloud Platform(以下GCP)を利用してサービスを構築し動かしています。 GCPには Cloud Identity and Access Management (IAM) という権限管理の仕組みがあります。IAMを適切に管理して、アカウントに最低限の権限を付与することがクラウドサービスを安全に利用するためには必要なことです。これはSREが持つ本番環境に対する権限についても同様で、できるだけ本番環境に対する権限を持たないようにしておきたいのですが、障害対応など本番環境でのオペレーション

                                                                    権限をQray -SREへの一時的な本番環境権限付与のしくみ- | メルカリエンジニアリング
                                                                  • New Relic流、オンコールとインシデント対応の成功への道

                                                                    成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。

                                                                      New Relic流、オンコールとインシデント対応の成功への道
                                                                    • 組織に失敗学でPostmortem文化の定着を試みた話 - 電通総研 テックブログ

                                                                      これは電通国際情報サービス アドベントカレンダーの12日目の記事です。 こんにちは。電通国際情報サービス 金融ソリューション事業部 石沢です。 本記事は当部門で5年ほど前から継続している組織としてのPostmortem(ポストモーテム)活動「失敗学」をご紹介します。様々な用語で類似の活動をされている組織も多いと思いますが、良きシステム開発を実施するためのヒントとなれば幸いです。 Postmortem(トラブル事後分析)文化について Postmortemは直訳すると検死解剖ですが、システム開発の文脈では現在「トラブルの事後分析」という意味で使われています。有名なところでは サイトリライアビリティエンジニアリング The DevOps ハンドブック 理論・原則・実践のすべて 他多数の書籍で紹介されている概念です。 簡単にいうと、 システムやサービスにおいて発生したインシデント(障害等)の対応が

                                                                        組織に失敗学でPostmortem文化の定着を試みた話 - 電通総研 テックブログ
                                                                      • 障害対応の心構え | Wantedly Engineering Handbook

                                                                        このドキュメントはインシデント発生前に予防として読んでおくことを想定しています。 緊急時は Incident Response (internal) 及び #war_room (internal) を確認してください。 インシデント対応について Incident Response (internal) がより網羅的かつ真とするドキュメントです。 このドキュメントでは上記のドキュメントの内容を補足する内容として特に new joiner が認識しておくべき情報を抽出/加筆したものです。 もし上のドキュメントとこの章に食い違いが生じる場合は上のドキュメントを真としてこの章を編集してください。 各チームで new joiner を受け入れるときにこのドキュメントを一律に共有することで共通認識を得ることを目的にします。 このため主に障害対応経験が少ない人に向けた最低限の心構えを共有するものであり障

                                                                          障害対応の心構え | Wantedly Engineering Handbook
                                                                        • AWS勉強会レポート「サービスを動かし続ける為に何が必要か」 - Tech Do | メディアドゥの技術ブログ

                                                                          はじめに 初めまして!6月よりメディアドゥにJoinしたサーバーサイドエンジニアの角田です。 みなさんAWSは使ってますか? 私はとある社内システムのクラウドリフト案件で絶賛活用中です。 さて、先日AWS社ソリューションアーキテクトの八木さん(@ygtxxxx)協力のもと、同社シニアソリューションアーキテクトの大村幸敬(@yktko)さんに表題の勉強会を開いていただきました。 昨今当社でも新しい部署として立ち上げられたSREの話題が中心ですが、開発サイドの方にも非常に有益な内容でしたので概要をレポートしたいと思います! 内容 アジェンダは下記の通りです。 各章の内容や所感についてまとめてみましたのでご覧ください! ※ ⑤参考文献 は割愛 ①運用って何だ このセクションでは、「そもそも運用とは何なのか」をブレイクダウンしてご説明いただきました。 ユーザー視点でシステム運用について分解していく

                                                                            AWS勉強会レポート「サービスを動かし続ける為に何が必要か」 - Tech Do | メディアドゥの技術ブログ 
                                                                          • Rails開発で障害対応を減らすには? システム障害との向き合い方 Part2

                                                                            2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん(@sinamon129)氏。 講演資料はこちら すぐに解決できない障害が起きた時にやること 次は、すぐには解決できない障害が起きたときにやることについてです。また物騒な話なんですけど。 例えば、リリースしたら「なんか起きたね」ってなって前のバージョンに戻しました。 でも、データは結局変わっちゃっていて、戻したところでバグっている状態が戻らないということがありました。ロールバックしました。戻らない! わー!? ってなってから2時

                                                                              Rails開発で障害対応を減らすには? システム障害との向き合い方 Part2
                                                                            • インシデントコマンダー - PagerDuty Incident Response Documentation

                                                                              Credit: NASA インシデントコマンダーになりたいですか。 あなたは正しい場所にたどり着けました! インシデントコマンダーはシニアメンバーである必要はなく、必要な知識があれば誰でもなることができます(もちろんインターンも含みます)。 目的# インシデントコマンダーの目的を1文でまとめるなら インシデントを解決に導く インシデントコマンダーは重大インシデント発生中に意思決定をします。 インシデントを解決するために、タスクを委譲し内容領域専門家からの意見を聞きます。 日々の地位に関係なく、重大インシデントでは最も位の高い人です。 コマンダーとしての意思決定は確定的なものです。 インシデントコマンダーとしての仕事は、他の背景情報や詳細情報を集約して明確な調整をするために、通話を聞きインシデントのSlackルームを見ます。 インシデントコマンダーは、任意のアクションの実行や修正をしたり、グ

                                                                                インシデントコマンダー - PagerDuty Incident Response Documentation
                                                                              • Anti-Patterns - PagerDuty Incident Response Documentation

                                                                                Home Getting Started On-Call Being On-Call Who's On-Call? Alerting Principles Before an Incident What is an Incident? Severity Levels Different Roles Call Etiquette Complex Incidents During an Incident During an Incident External Communication Guidelines Security Incident After an Incident After an Incident Postmortem Process Postmortem Template Effective Postmortems Crisis Response Crisis Respons

                                                                                  Anti-Patterns - PagerDuty Incident Response Documentation
                                                                                • 東証システム障害、外部への情報発信の経緯が明らかに

                                                                                  東京証券取引所は2020年10月1日夜、同日に発生したシステム障害と外部への情報発信の経緯を時系列で明らかにした。 同社によれば、東証の売買システム「arrowhead(アローヘッド)」のディスク障害を検知したのは10月1日7時4分。本来であれば同日7時0分に送信すべき電文の送信ができていなかったが、その旨を証券会社に通知したのは送信予定時刻から約1時間過ぎた8時1分だった。 その約1時間後の8時54分にはarrowhead と証券会社間の発注系経路を遮断。9時26分には共有ディスクの2号機への強制切り替えを完了していたが、結局11時45分に終日売買停止をすることを全利用者向けにWebサイト上で通知した。

                                                                                    東証システム障害、外部への情報発信の経緯が明らかに

                                                                                  新着記事