障害対応の人気記事 50件 - はてなブックマーク

1 - 40 件 / 50件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

障害対応の検索結果1 - 40 件 / 50件

障害対応に関するエントリは50件あります。障害、運用、仕事などが関連タグです。人気エントリには『重大事故の時にどうするか？｜miyasaka』などがあります。

重大事故の時にどうするか？｜miyasaka
- 3222 users
- note.com/mmiya
- 政治と経済
- 2019/07/07
ヤフー時代の部下から突然メッセンジャーが。「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか？」と。リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。ひょっとしたら他の人にも参考になるかとおもって（若干訂正してますが）ここに残して
【1月23日追記】12月23日、24日に発生しました障害に関するご報告
- 1128 users
- medium.com
- テクノロジー
- 2022/12/24
いつもSkebをご利用いただき、誠にありがとうございます。 12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。本障害につきまして詳細をご報告させていただきます。概要日時: 12月23日12時22分〜12月24日7時00分 (JST) ダウンタイム: 18時間38分内容: skeb.jpにアクセスできない不具合原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。解決: Herokuの一切の利用を中止し、すべてのサーバとシステ
- 障害
- heroku
- webサービス
- skeb
- あとで読む
- サービス
- cloud
- IT
- trouble
- コンテナ
東証の記者会見は「技術がわかる経営者」「受け答えが理路整然」と絶賛する感想が集まる。なお横山CIOは落研出身
- 1056 users
- togetter.com
- 世の中
- 2020/10/01
リンク日本経済新聞電子版東証「2日の売買実施は1日19時半めど連絡」社長会見終了 ■宮原社長「市場預かるものとして責任痛感」■システム再起動なら相当の混乱想定された■終日売買停止で1日の株価は「値つかず」 56 users 236
- 技術
- 経営
- togetter
- あとで読む
- IT
- ビジネス
- 企業
- トラブル
- technology
- 東証
…Outlookの送信メールが……消えた…？(12/24改修されたよ) - Qiita
- 1015 users
- qiita.com/tak_ham
- テクノロジー
- 2019/12/14
はじめに Leverages Advent Calendar 10日目担当の ham です。今が 12月12日だということは気にしてはいけません。代打です。 Leverages で、セキュリティの責任者としてセキュリティ意識の啓蒙や全社に関わるシステムの改善をしています。また、前職では、SOC、NOC、BGPの運用などを行っていました。最近メールについて不可解な問い合わせが増えてきたので、調べたことをまとめます。追記(2019年12月24日 17:10) 本日 16時頃に Outlookサポートから不具合を改修した旨の連絡が来ました。私もテストを実施し、Outlook から送信した Re: 【hoge】【fuga】のメールが Gmail に届くことを確認しました。メリークリスマス！追記(2019年12月15日 21:40) 反響の大きさにびっくりしています。茶渡の霊圧を消し
- outlook
- メール
- あとで読む
- mail
- o365
- microsoft
- gmail
- Qiita
- IT
- インターネット

障害報告書を書こう！ - Qiita
- 843 users
- qiita.com/Ping
- テクノロジー
- 2022/07/04
担当しているITサービスなどに何かしらのインシデントや障害が発生した時に、対処後のアクションとして報告書を提出して事象の内容を報告（レポート）する場合がある。提出先は会社の偉い人だったりクライアントだったり。場合によってはユーザー向けに発表したり。事の顛末を報告して「今後同様のことを起こさないように努力します、ごめんなさい」をするのだ。どのように再発防止の努力するのかを書くものでもある。主にクライアント向けのビジネス内容ではあるが、自分が使っているテンプレパターンを共有するので参考にしてもらえればと思う。1 全般的なポイント心得のようなもの。次の点は留意してて欲しい。淡々と冷静な説明をこころがける当然のことながら事実は脚色しない。無駄な修飾も要らない。客観的な事実を簡潔に述べる。例： ❌「一生懸命頑張って対応したが…」 ❌「寝ないで対応したが…」 ❌「本当の原因は…」できるだ
- ドキュメント
- あとで読む
- 障害
- 運用
- 仕事
- qiita
- 技術
- 資料
- IT
- マネジメント
管理者用初期化URLを踏んでWebサービスのデータをふっとばした話 - Qiita
- 679 users
- qiita.com/HirotoKagotani
- テクノロジー
- 2020/12/08
自己紹介本職のエンジニアではありませんが、ちょっとICT系に詳しそうなやつって感じで、部署のサーバ管理を任されたりもしています。背景私の（当時所属していた）部署では、毎年、数週間かけて前年の各人の業務実績をとりまとめて一つの冊子（PDF）にするという仕事があり、この作業を少しでも自動化するため、Webサービスが内製されました。当初は単純に各ユーザが自分の業務実績一覧をテキストで用意してアップロードするというものでしたが、秘伝のタレのように毎年少しずつ改良されたり、大幅に作り直されて別システムから業務データを取り込んでからブラウザ上で編集できるようになったりしつつ、なんやかんやあって私が引き継ぎます。他にやりたい人もなく、ひとり鯖管です。OSはCentOS6でした。このシステムでは、毎年新しいデータを編集するため、その作業開始時にデータを初期化する必要があります。この作業も自動化し、
- サーバ
- あとで読む
- qiita
- webサービス
- システム
- データ
- linux
- トラブル
- サービス
- 障害
あと2時間でElastiCacheのメモリが枯渇！そのときあなたは何をしますか？
- 608 users
- zenn.dev/e_koma
- テクノロジー
- 2020/12/18
突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。さて、この状況におかれたあなたは何をしますか？はじめにモバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、どのような観点で問題を切り分けていったのか、トラブルシュートのプロセスどのような準備(負荷テスト)をしていれば防げるのかという話をし
- aws
- インフラ
- あとで読む
- 監視
- 運用
- performance
- elasticache
- aurora
- redis
- db
60億円の損害を出した「DMMブックス」 70％OFFキャンペーンでプラットフォームに何が起きていたか
- 428 users
- speakerdeck.com/onohiroshi1
- テクノロジー
- 2021/10/18
ログ基盤をCloudWatchLogからNewRelic Logs + S3に変えたら利便性も上がってコストも下がった話
- DMM
- あとで読む
- 電子書籍
- サーバ
- ebook
- SRE
- AWS
- 障害対応
- 書籍
- インフラ
東証、障害の原因を特定　設定値に不備、切り替え失敗
- 395 users
- www.itmedia.co.jp
- 政治と経済
- 2020/10/05
日本取引所グループは同日、調査結果を踏まえ、再発防止策などを検討する調査委員会を設置した。委員長の久保利英明弁護士をはじめ、4人の社外取締役で構成する。関連記事東証、10月2日は通常通りの売買へシステム障害を起こし全銘柄の売買を停止していた東京証券取引所は、明日、10月2日は通常通り売買を行うと発表した。東証のシステム障害、解消は「明日以降」　「バックアップへの切り替え」で異常東京証券取引所が、システム障害について「明日以降、正常な売買ができるよう対応している」と発表した。東証にシステム障害　終日、全銘柄売買停止に【更新】東京証券取引所は10月1日、相場情報に障害が発生したため、朝から全銘柄の売買を停止している。1日は終日売買停止となる。復旧については未定。 “東証を変えた男”が語る、金融業界の伝説「arrowhead」誕生の舞台裏――“決して落としてはならないシステム”がで
Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
- 346 users
- mackee.hatenablog.com
- テクノロジー
- 2020/08/30
起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったことがある人・ノウハウがある人に集中し、それ以外の人は眺めるだけ・あとからログを見返すだけの状態によく陥ることがあります。これはWebサービスを開発・運用するチームとしてみたときにそういった苦労が特定の人に集中するのは良くないので、それを緩和する目的として、筆者が障害対応時に考えていることを記述してみます。なお、これが唯一の正解ではないとは思っているので、ツッコミや、自分はこう考えているよというのを教えていただければ幸いです。具体的な手法を避けて思考の方法を述べているのは、障害というのはパター
- 障害
- あとで読む
- webサービス
- web
- トラブル
- 運用
- SRE
- webservice
- 考え方
- サービス
入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
- 336 users
- blog.song.mu
- テクノロジー
- 2021/12/02
システム障害が起こったときにどういう体制で望むか、エンジニア個人が障害に直面した時にどのような役割を受け持つのが良いのか。組織によって色々なパターンはあるでしょう。しかし、幸いにも「入門監視」やSRE本に書かれている4つの役割分担が浸透しているので、それをベースに考えるのがファーストステップとしては良いのではないでしょうか。入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチームオライリージャパンAmazon ただ、小さな組織では障害時に4人もすぐに揃わない場合もあるでしょうし、そもそも4人もスタッフがいない、と言う場合もあるでしょう。そういった場合にもどうすればいいのか考えていきます。役割分担の基本「入門監視」に
- 監視
- SRE
- あとで読む
- 障害
- 運用
- エンジニア
- 本
- インフラ
- 障害対応
- チーム
障害対応プロセスを改善してきた話 - 10X Product Blog
- 304 users
- product.10x.co.jp
- テクノロジー
- 2023/06/12
障害プロセスを改善してきた話こんにちは。Reliability & Securityチームに所属するSoftware Engineerの@sota1235です。今回は10X内における障害対応プロセスの改善をご紹介します。今が完成系ではなく道半ばではありますがこの半年 ~ 1年で大きく進化したので同じくらいのフェーズの会社で困ってる方がいたら参考にしてみてください！ちなみに私ごとですが去年の5/26にこんな投稿をしてたのでやっと伏線を回収する形となります(※ ドヤ顔ではありません)。目次こんな感じで紹介していきます。目次障害対応プロセスの改善に踏み切った背景課題1. 障害の報告フォーマットが統一されていない課題2. 障害報のクオリティの差異が大きく後から振り返りが難しい課題3. 障害対応者が特定の人に偏る第一の改善改善1. 障害報告書のフォーマット更新改善2. S
- 運用
- あとで読む
- 障害対応
- SRE
- 障害
- slack
- システム
- サーバ
障害対応時にまずはissueを作ると良い - そーだいなるらくがき帳
- 299 users
- soudai.hatenablog.com
- テクノロジー
- 2020/04/30
先日のAmazon SQSの障害には色々と肝を冷やした人も多いのではないでしょうか。 classmethod.jp 今回のようなケースとは別に障害は大小あれど、みなさん日々戦っていることだと思います。障害対応はエンジニアの花形であるものの、サービスに対する知識やソフトウェアの知識など経験と技術の両方が必要です。そのため、どうしてもトラブルシューティングはエースエンジニアなどの一部の人に依存してしまう…などの問題が発生しがちです。そこで今日は私の経験から障害対応のいろはを書いて行きたいと思います。今回のスコープの外実際に障害時の具体的な対応、例えば障害切り分けやRDBMSのボトルネックの探し方などの話はしません。まずissueを作ると良い本題です。トラブルを認知したらまずはissueを作りましょう。 issueを作るときはtemplateが事前に設定されていると便利です。 g
- 障害
- あとで読む
- 監視
- 運用
- 障害対応
- システム
- slack
- ドキュメント
- github
- 仕事
システム障害対応演習を実施した話｜NAVITIME_Tech
- 298 users
- note.com/navitime_tech
- テクノロジー
- 2020/07/02
こんにちは、ネコ派メタラーです。ナビタイムジャパンで地点検索基盤の開発マネジメントを担当しています。好きなバンドは Arch Enemy です。システム運用に関わる人であれば、「システム障害」というと耳が痛い方が多いかと思います。システム障害は起こさないに越したことはないですが、万が一システム障害が発生したとき、その行動選択はサービスの信頼性を大きく左右することになります。迅速に復旧させることはもちろんですが、適切な情報公開によってユーザーの不安を払拭するといったコミュニケーションも重要なポイントです。しかし、緊急事態というプレッシャーを受けながら最適な行動を選択することは容易ではありません。私が所属しているチームでは、Web API サーバソフトウェアから全文検索ミドルウェアまで含めた開発・運用を行っており、幅広いトラブル対応スキルが必要になります。トラブル対応のスキルを持ったベテ
【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか〜社内向け障害対応リスト付き〜
- 276 users
- medium.com
- テクノロジー
- 2020/07/21
「なんかアプリでインシデント起きてエンジニアがどこかで対応してるらしいよ」「インシデント時のお知らせって誰がどうやって出すんだっけ？」「インシデントの復旧作業って今どれくらい終わってる？」「あのインシデントって振り返りしたっけ？」「似たようなインシデント、前も対応したような、していないような」このような会話に覚えはありませんか？ FiNC Technologies社 (以下FiNC) では今までインシデント対応をしていても自チーム内で対処しようとしてしまい、他の人が気づけないインシデント対応の仕方にフォーマットがなく、迅速な対応やお客様への報告ができないインシデントの振り返りが実施されず、インシデント時の知見が共有されないという問題がありました。それらの問題を気が付きやすく、シェアしやすくする = 統一のチャンネルで情報を整理し、そこにシェアしやすい空気を作る何をすべきかわ
障害発生！全員集合？－オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
- 273 users
- blog.cybozu.io
- テクノロジー
- 2021/08/19
8月だというのに涼しい日が続きますね。 kintone.comのDevOpsをしている@ueokandeです。もうすぐAWS版kintoneのローンチからから2年が経過しようとしています。この2年間、DevOpsチームではkintone.comのサービス安定化やスケーラビリティに注力してきました。時には本番環境の障害で休日や深夜に障害対応することもあります。 kintone.comの障害の一次対応は、我々DevOpsメンバーが実施しています。サービスローンチ直後は、メンバーの多くがオンコールに不慣れで、慌てて障害対応したりうまく進められないことが何度もありました。そこでメンバー全員が効率的・効果的な障害対応を目指すべく、チームでPagerDuty社のIncident Response（非公式日本語訳版）を読むことにしました。この記事ではAWS版kintoneで実際に体験した障害
- 運用
- あとで読む
- DevOps
- 障害
- cybozu
- チーム
- オンコール
- development
- sre
- monitoring
KDDI通信障害の報告書で見えた地獄絵図、痛恨のミスから次々と事態が悪化
- 254 users
- xtech.nikkei.com
- テクノロジー
- 2022/10/12
総務省の有識者会議「電気通信事故検証会議」は2022年10月5日、KDDIが7月に起こした大規模通信障害に関する検証報告書を公表した。KDDI自身がこれまで4度にわたって記者会見を開いて説明しているので全体像は把握していたが、さらに深掘りした興味深い内容となっている。例えば障害の影響が全国に波及した点。同業他社からは「KDDIはなぜ影響を局所化できなかったのだろうか」と疑問の声が上がっていた。原因は、同社が音声通話用の「VoLTE（Voice over LTE）交換機」のネットワークをフルメッシュ構成にしていたためだった。東西でネットワークを分けるのが一般的な印象だが、同社は「特定の拠点で発生する輻輳（ふくそう）を早期に収束させるため」に全国フルメッシュ構成を採用していた。これが裏目に出た。今後は東西分散構成に変更するという。検証報告書を読むと、厄介な出来事が次々と発生して事態が悪化し
【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO
- 251 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/29
どのような事前準備をしているか有事の際は想定外のことが発生しやすく、事前準備をしていないと冷静な対応が難しくなります。いきなりしっかりした事前準備をすることは難しいので、徐々に成熟度を上げていきます。本章では以下の観点で、事前準備についてご紹介します。手順書自動化訓練手順書フローやチェックリストを含む手順書を準備しています。手順書の内容は後述します。分かりやすい手順書を準備することも重要ですが、その手順書への導線づくりも大切にしています。運用周りのドキュメントは数が多く、目的のドキュメントが埋もれてしまい他のメンバーが見つけられない場合があるからです。周知に加えて、ドキュメントの階層を見直したり、特定チャンネルに手順書の URL をピン留めしておくなど、手順書に辿り着きやすくする工夫をしています。分かりやすい手順書の書き方については、以下のブログが参考になります。
- aws
- 障害
- あとで読む
- 障害対応
- 運用
- failue
- Slack
- チーム
- 仕事
- 東京
Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです
- 238 users
- blog.stenyan.jp
- テクノロジー
- 2020/09/07
Webアプリケーションエンジニアをやっていると時たま障害が発生し復旧作業にあたるのだが、人によって「障害対応が得意」だったり「苦手」だったりする。ただ、障害対応時の「良い動き」というのが実際どういうものなのかというのが自分の中でふんわりしていたので、ざっくりはてブで「障害対応」で検索していくつかのエントリーを読んでみたり、自分の仕事での経験を振り返ってみたりして考えたことをまとめてみた。障害にはフェーズがある障害対応には複数の役割がある障害対応をスムーズに進めるための目的は複数あるスキルも必要なので練習していけると良い初心者でもやれることはある実際やってみると良さそうなこと障害対応時にやることをテンプレート化するスムーズに対応に入れる仕組みを整える障害対応避難訓練おわり障害にはフェーズがある障害対応したことないと、障害には「障害中」「障害中でない」の二つの状態しかな
- 運用
- あとで読む
- 障害
- テンプレート
- web
- システム
- 開発
- security
- 障害対応
- 仕事
Zennで発生した障害の原因と行なった対策のまとめ
- 213 users
- zenn.dev/catnose99
- テクノロジー
- 2021/02/25
2021/02/24の11時頃〜1時間ほどzenn.devにアクセスしづらい・アクセスできない問題が発生していました。その後も3時間ほど一部のページへのアクセスができない状況となっていました。Zennに投稿してくれた方、見に来てくれた方、ご迷惑をおかけしてすみませんでした。今回の障害は学びが多かったので、個人の記事として残しておくことにします。原因今回の障害は、使用しているクラウドサービスではなく、Zenn自体に原因がありました。 1. KaTeX記法により生成されるHTMLが思った以上に大きかった ZennのマークダウンエディターではKaTeX記法をサポートしています。例えば、$a\ne0$と書くとa\ne0と表示されます。 KaTeXはサーバーサイドレンダリングをサポートしており、KaTeX記法からの数式のHTMLへの変換はサーバーサイドで行なっていました。DBにはマークダウンだ
- 障害対応
- あとで読む
- 障害
- 開発
- サーバ
- 設定
- programming
より安全にご利用いただけるようになったClassiのご報告と今後の取り組みについて | Classi（クラッシー） - 子どもの無限の可能性を解き放ち、学びの形を進化させる
- 182 users
- corp.classi.jp
- テクノロジー
- 2021/05/12
1.はじめに 2020年4月（昨年）、当社サービス「Classi」に不正アクセスがあった件に関し、過去一年間、弊社はこれを重く受け止め、お客様に安全にClassiをご利用いただく事を当社事業の最優先事項とし、各種対策を年間を通じ実施してまいりました。今年度も、昨年度から継続して、サービスのセキュリティを重視した全社的な対策を実行していく所存でございますので、以下に発生直後の対応、及び今日までに実行いたしましたセキュリティ強化対策を含めて、今後の取り組みについてご報告いたします。現在に至るまで同様の不正アクセスは起こっておらず、セキュリティ状況についても外部企業の第三者調査の結果、他社と比較して標準水準以上に強化できていると評価いただいております。また2021年3月のISO/IEC27001に基づく情報セキュリティマネジメントシステム(ISMS)の継続審査においても、マネジメントシステ
- security
- aws
- Classi
- セキュリティ
- あとで読む
- インシデント
- github
- incident
- git
- サーバ
次世代デジタル保険を支える監視・通知の技術
- 157 users
- techblog.finatext.com
- テクノロジー
- 2020/08/27
監視・通知の仕組みの全体像また、弊社では Terraform を用いて IaC ( Infrastructure as Code ) を実現して、各AWSアカウント環境の状態をコードで一元管理していますが、 Datadog の監視項目も Provider が用意されているため、Terraform で管理をすることが可能です。現状はすべての Datadog の監視項目がコード化されているわけではないですが、こちらは随時対応を行っていきたいと思っています。外形監視外形監視は、WebサイトやAPIエンドポイントが正常に動作していることを、定期的に特定のURLに対して問い合わせをして、期待されたステータスコードや要素を返すことを監視することを目的とします。弊社では Datadog の Synthetic Monitoring という機能を利用して監視を行っていますが、この機能の特徴としては W
- 監視
- あとで読む
- datadog
- 運用
- aws
- 技術
- docker
- 設定
- API
インシデント指揮官トレーニングの手引き | Yakst
- 150 users
- yakst.com
- テクノロジー
- 2019/09/06
[SRE]原文 An Incident Command Training Handbook – Dan Slimmon (English) 原文著者 Dan Slimmon 原文公開日 2019-06-24 翻訳依頼者翻訳者 meiq 翻訳レビュアー doublemarket 原著者への翻訳報告 1496日前 Twitterで報告済み編集私が Hashicorp で担った最初の仕事のひとつは、社内向けのインシデント指揮官のトレーニング資料を作ることでした。これは私自身がインシデントへの対処にあたりながら何年ものあいだ肌身に感じてきた、あらゆる類の考えをまとめ上げる良い機会となり、最高に面白いタスクでした。以下は私の書いたトレーニング資料、ほぼそのままです。あなたがインシデントレスポンスのポリシーを定義するにせよ、即興でインシデントレスポンスを行うにせよ、お役に立てたら幸いです。
- 監視
- SRE
- devops
- incident
- 運用
- あとで読む
- 障害
- トレーニング
- hashicorp
- management
正規表現ミスって一晩誰もサービスにログインできなくしてしまった話 - Qiita
- 141 users
- qiita.com/tinoji
- テクノロジー
- 2023/12/11
はじめにこの記事は、本番環境などでやらかしちゃった人 Advent Calendar 2023の11日目です。どうも、@_tinojiと申します。実に4年ぶりにアドベントカレンダーに参加しました。正規表現で1文字消し忘れて、なんぴとたりともサービスにログインできない状態にしてしまったという話をします。正規表現にはまじで気をつけましょうという教訓になれば・・・犠牲となったログイン画面とあるtoBなWebサービスを開発していたときの話です。法人のユーザーが使う管理画面的なイメージです。当然ログイン機能があって、至って普通なログインなのですが1つだけ特徴がありまして、ログイン画面のURLをアカウントごとに変えています。https://example.com/<uuid>/loginみたいな感じですね。あまり見ない形式ではありつつも、個別のUUIDを特定されない限りログイン画面に対し
- 正規表現
- あとで読む
- qiita
- WAF
- trouble
- 仕事
Kubernetes障害で泣かないための羅針盤、Observabilityを活用したトラブルシューティングフロー大公開
- 129 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/04/14
※岡本、正野、宇都宮はNTTデータ所属 Kubernetesやクラウドネイティブをより便利に利用する技術やツールの概要、使い方を凝縮して紹介する本連載「Cloud Nativeチートシート」。前回から複数回に分けて「Observability（オブザーバビリティ）」「可観測性」にフォーカスして解説しています。 Kubernetesを使っていてトラブルが発生したけど、原因究明をどう進めればいいか分からない……ということはありませんか？コンテナを利用したシステムでは、マイクロサービス化が容易なので、コンポーネントやサービスの数が従来のシステムに比べて非常に多くなります。そのため、障害が発生した場合の原因の究明も大変になります。そこで今回は、「Observabilityでいろいろとデータが取れるのは分かったけど、何からどう見ていけばいいのか分からない」という方向けに、Kubernetesで実
- kubernetes
- k8s
- Observability
- あとで読む
- cloud
- コンテナ技術
- container
- 障害
失敗して攻め続けるために - freeeのエンジニアが障害対応で実践していること - freee Developers Hub
- 97 users
- developers.freee.co.jp
- テクノロジー
- 2021/09/28
2015年10月入社でコアエンジンチームの@kompiroと申します。普段は下記の３つの業務に従事しています。お客様が自社の情報を把握するためのデータアグリゲーション機能の開発マイクロサービスに切り出したデータアグリゲーション機能をEKSに移行チーム横断で開発者のみんなが開発しやすい環境の構築そんな私ですが、最近しくじり開拓者のつどいという社内イベントを開催しています。これは障害対応の一環として始めたイベントです。今日はしくじり開拓者のつどいというイベントをみなさまに紹介するとともに、背景となる障害に対する考え方と障害対応の流れを解説します！ freeeの開発文化と障害対応 freeeの開発文化こちら弊社の紹介スライドからの引用です。 freeeのエンジニアチームが大切にする開発文化が言語化されたものが失敗して攻めよう何でもやれる、何でもやる必殺技カッとしてシュッとやる
今日からできる。初めての障害対応ガイド | DevelopersIO
- 61 users
- dev.classmethod.jp
- テクノロジー
- 2019/12/31
はじめにこむろ＠札幌です。今年もまた大きなプロジェクトのサービス運用を担当し、サービス運用経験者としていろんなところに顔を出したりことの多い1年でした。自分自身が障害対応の前線に立つだけでなく、ほかの人の障害対応の手伝いをするなど、いろんな視点で運用の現場に関わってきました。元々サービスのまともな運用経験ゼロの私が、多様な技術的負債や自分があまりかかわっていないサービスの運用を紆余曲折の結果、抱えるようになって数年経過し、サービス運用にまつわる様々な知見が蓄積しました。2019年の締めにそれらをまとめて文章にしておこうと思います。今回のターゲットは開発をメインでやっているエンジニアです。運用を経験したことがない人にとっては、障害対応時にどのように立ち回ってよいのかがわからず、なんとなく行動した結果、サービス利用者への障害が長引いてしまう、状況をより悪化させてしまう、といった状態を招
- 障害対応
- 障害
- あとで読む
- 調査
- サービス
- 考察
- programming
- 仕事
障害対応、どう学ぶ？　システム障害との向き合い方 Part1
- 56 users
- logmi.jp
- テクノロジー
- 2019/06/28
2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん（@sinamon129）氏。講演資料はこちらシステム障害との向き合い方しなもん（@sinamon129）氏（以下、しなもん）：お願いします。素敵なキラッとした話のあとにシステム障害の話をします。よろしくお願いします。しなもんといいます。今はWebメディアとECをやっているRiLiという会社で取締役CTOをやっています。RailsGirlsのコーチをやったりとかしています。アカウントは@sinamon129でやってるの
【ラクス】インフラ運用チームが障害対応時間削減に向けて取り組んだこと - RAKUS Developers Blog | ラクスエンジニアブログ
- 53 users
- tech-blog.rakus.co.jp
- テクノロジー
- 2022/02/18
はじめにこんにちは。cappy_potterです。 MailDealer と ChatDeaeler という弊社サービスのインフラ運用チームのリーダを担当しています。現状、これら2サービスで稼働しているサーバの数は、合計で1,000台近くありますが、これだけサーバがあると、様々な障害も発生します。中でも、仮想基盤機器やネットワーク機器で障害が発生した場合は、影響範囲が大きくなりやすいです。主にそういったものに対し、「どうすればチームとして迅速に対応できるようになるか？」ということを考え、実践したことについて紹介したいと思います。はじめに過去発生した障害について周知に時間がかかる要因各要因への対策要因①：各自バラバラに対応していて、ムダが生じている要因②：周知を行う際の目標時間を定めていない要因③：周知文に記載する内容を都度考えている要因④：影響範囲特定に必要なアク
トラブル対応中にエンジニアリーダーとして考えていること - Mitsuyuki.Shiiba
- 50 users
- bufferings.hatenablog.com
- テクノロジー
- 2020/03/12
を言葉にしてみようと思った。僕のいる場所での話。ステークホルダーに対する窓口としてプロデューサーがいて、僕が開発チームのリーダーをしてるようなとき。 ## 状況を把握するシステムトラブルが発生すると場が混乱してることが多い。色んな情報が混ざるし、色んな人から問い合わせが来たりするし、窓口になってくれているプロデューサーからの説明も省略されていることが多い。このときに一番避けたいのは、ミスコミュニケーションによって本当の問題を見失って無駄な作業をしてしまうこと。なので、まずは落ち着いて状況を正確に把握する。ちょっとでもはやく解決したいから、その断片的な情報を元に調査に入りたい気持ちになるけど、ぐっとこらえて全体像を把握する。コミュニケーションで特に気をつけるのは、相手や自分の中にある思い込み。思い込みがあると喋るときには（当然分かってることだよね）と言葉を省略してしまうし、聞くときには
障害対応という花形 - 毛並みの揃った話はないけれど
- 50 users
- www.taihey-blog.com
- テクノロジー
- 2020/05/01
みなさんこんにちは。私はプレイドのエンジニアの大平(おおひら) (@Victoria_Peak_) と申します。 7年勤めた野村総合研究所を辞め、2018/07〜現在まで株式会社プレイドで勤務しています。 twitter.com 日々の活動内容(プログラミング・SaaS/SIer・ロードバイク・減量など)をつぶやいたりしておりますので、本エントリを読んで興味を持たれた方は、twitterでフォロー、リプライ、メッセージなどをいただければと思います。基本すぐに回答します。今回は下記の本ブログのメインストリームである「SIer/年収1000万を手放した私」シリーズをお休みして、スピンオフとして執筆します。 www.taihey-blog.com 0.エントリ執筆のきっかけは twitter 今回のテーマで執筆しようとしたきっかけは、twitter上のこんなやり取りがきっかけでした
- SIer
- あとで読む
- 運用
- 障害
- システム
- エンジニア
- 開発
- ビジネス
権限をQray -SREへの一時的な本番環境権限付与のしくみ- | メルカリエンジニアリング
- 39 users
- engineering.mercari.com
- テクノロジー
- 2020/09/10
メルペイSREチームの @tjunです。この記事は、Merpay Tech Openness Month 2020 の19日目の記事です。今日は、メルペイSREチームのオペレーションのために開発して利用している Qray(クレイ) というツールの話をします。はじめにメルペイでは、Google Cloud Platform(以下GCP)を利用してサービスを構築し動かしています。 GCPには Cloud Identity and Access Management (IAM) という権限管理の仕組みがあります。IAMを適切に管理して、アカウントに最低限の権限を付与することがクラウドサービスを安全に利用するためには必要なことです。これはSREが持つ本番環境に対する権限についても同様で、できるだけ本番環境に対する権限を持たないようにしておきたいのですが、障害対応など本番環境でのオペレーション
- gcp
- sre
- terraform
- IAM
- devops
- slack
- security
- cloud
- エンジニア
- 環境
New Relic流、オンコールとインシデント対応の成功への道
- 34 users
- newrelic.com
- テクノロジー
- 2020/04/02
成功者がどのようにNew Relicを使用してKubernetesのパフォーマンスを4倍に向上させ、拡張性とスループットを改善したかをご覧ください。
- SRE
- devops
- 監視
組織に失敗学でPostmortem文化の定着を試みた話 - 電通総研テックブログ
- 34 users
- tech.dentsusoken.com
- テクノロジー
- 2021/12/13
これは電通国際情報サービスアドベントカレンダーの12日目の記事です。こんにちは。電通国際情報サービス金融ソリューション事業部石沢です。本記事は当部門で5年ほど前から継続している組織としてのPostmortem（ポストモーテム）活動「失敗学」をご紹介します。様々な用語で類似の活動をされている組織も多いと思いますが、良きシステム開発を実施するためのヒントとなれば幸いです。 Postmortem（トラブル事後分析）文化について Postmortemは直訳すると検死解剖ですが、システム開発の文脈では現在「トラブルの事後分析」という意味で使われています。有名なところではサイトリライアビリティエンジニアリング The DevOps ハンドブック理論・原則・実践のすべて他多数の書籍で紹介されている概念です。簡単にいうと、システムやサービスにおいて発生したインシデント（障害等）の対応が
障害対応の心構え | Wantedly Engineering Handbook
- 31 users
- docs.wantedly.dev
- 学び
- 2022/08/16
このドキュメントはインシデント発生前に予防として読んでおくことを想定しています。緊急時は Incident Response (internal) 及び #war_room (internal) を確認してください。インシデント対応について Incident Response (internal) がより網羅的かつ真とするドキュメントです。このドキュメントでは上記のドキュメントの内容を補足する内容として特に new joiner が認識しておくべき情報を抽出/加筆したものです。もし上のドキュメントとこの章に食い違いが生じる場合は上のドキュメントを真としてこの章を編集してください。各チームで new joiner を受け入れるときにこのドキュメントを一律に共有することで共通認識を得ることを目的にします。このため主に障害対応経験が少ない人に向けた最低限の心構えを共有するものであり障
- 障害対応
- あとで読む
AWS勉強会レポート「サービスを動かし続ける為に何が必要か」 - Tech Do | メディアドゥの技術ブログ
- 31 users
- techdo.mediado.jp
- テクノロジー
- 2020/10/16
はじめに初めまして！6月よりメディアドゥにJoinしたサーバーサイドエンジニアの角田です。みなさんAWSは使ってますか？私はとある社内システムのクラウドリフト案件で絶賛活用中です。さて、先日AWS社ソリューションアーキテクトの八木さん(@ygtxxxx)協力のもと、同社シニアソリューションアーキテクトの大村幸敬(@yktko)さんに表題の勉強会を開いていただきました。昨今当社でも新しい部署として立ち上げられたSREの話題が中心ですが、開発サイドの方にも非常に有益な内容でしたので概要をレポートしたいと思います！内容アジェンダは下記の通りです。各章の内容や所感についてまとめてみましたのでご覧ください！ ※ ⑤参考文献　は割愛 ①運用って何だこのセクションでは、「そもそも運用とは何なのか」をブレイクダウンしてご説明いただきました。ユーザー視点でシステム運用について分解していく
- SRE
- 運用
- aws
- あとで読む
- サービス
- 考え方
Rails開発で障害対応を減らすには？　システム障害との向き合い方 Part2
- 23 users
- logmi.jp
- テクノロジー
- 2019/07/01
2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇したのは、しなもん（@sinamon129）氏。講演資料はこちらすぐに解決できない障害が起きた時にやること次は、すぐには解決できない障害が起きたときにやることについてです。また物騒な話なんですけど。例えば、リリースしたら「なんか起きたね」ってなって前のバージョンに戻しました。でも、データは結局変わっちゃっていて、戻したところでバグっている状態が戻らないということがありました。ロールバックしました。戻らない！　わー!? ってなってから2時
- Rails
- あとで読む
インシデントコマンダー - PagerDuty Incident Response Documentation
- 13 users
- ueokande.github.io
- 政治と経済
- 2022/06/02
Credit: NASA インシデントコマンダーになりたいですか。あなたは正しい場所にたどり着けました！インシデントコマンダーはシニアメンバーである必要はなく、必要な知識があれば誰でもなることができます（もちろんインターンも含みます）。目的# インシデントコマンダーの目的を1文でまとめるならインシデントを解決に導くインシデントコマンダーは重大インシデント発生中に意思決定をします。インシデントを解決するために、タスクを委譲し内容領域専門家からの意見を聞きます。日々の地位に関係なく、重大インシデントでは最も位の高い人です。コマンダーとしての意思決定は確定的なものです。インシデントコマンダーとしての仕事は、他の背景情報や詳細情報を集約して明確な調整をするために、通話を聞きインシデントのSlackルームを見ます。インシデントコマンダーは、任意のアクションの実行や修正をしたり、グ
- 仕事
Anti-Patterns - PagerDuty Incident Response Documentation
- 11 users
- response.pagerduty.com
- 暮らし
- 2020/07/01
Home Getting Started On-Call Being On-Call Who's On-Call? Alerting Principles Before an Incident What is an Incident? Severity Levels Different Roles Call Etiquette Complex Incidents During an Incident During an Incident External Communication Guidelines Security Incident After an Incident After an Incident Postmortem Process Postmortem Template Effective Postmortems Crisis Response Crisis Respons
- 障害対応
- 運用
東証システム障害、外部への情報発信の経緯が明らかに
- 8 users
- xtech.nikkei.com
- テクノロジー
- 2020/10/02
東京証券取引所は2020年10月1日夜、同日に発生したシステム障害と外部への情報発信の経緯を時系列で明らかにした。同社によれば、東証の売買システム「arrowhead（アローヘッド）」のディスク障害を検知したのは10月1日7時4分。本来であれば同日7時0分に送信すべき電文の送信ができていなかったが、その旨を証券会社に通知したのは送信予定時刻から約1時間過ぎた8時1分だった。その約1時間後の8時54分にはarrowhead と証券会社間の発注系経路を遮断。9時26分には共有ディスクの2号機への強制切り替えを完了していたが、結局11時45分に終日売買停止をすることを全利用者向けにWebサイト上で通知した。
- トラブル