並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 30 件 / 30件

新着順 人気順

pagerdutyの検索結果1 - 30 件 / 30件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

pagerdutyに関するエントリは30件あります。 運用システムエンジニア などが関連タグです。 人気エントリには 『「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty』などがあります。
  • 「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

    変化の激しい市場に対応するための開発手法として、アジャイル開発を導入する企業が増えるとともに、「DevOps」への注目が高まっています。しかし一方で「DevOpsという言葉は聞いたことはあるけれど、実際にはよくわからない」という方もいらっしゃるのではないでしょうか。DevOpsは「開発担当者と運用担当者が密に連携することで、柔軟でスピーディーな開発を実現する」というソフトウェア開発手法の一つです。DevOpsは単なるトレンドではなく、現代のソフトウェア開発において非常に重要な考え方でもあります。本記事では、DevOpsを一から理解したいという方にもわかるように、DevOps誕生の歴史を簡単に紐解きながら、DevOpsの考え方をご紹介します。また、アジャイル開発との違いやDevOps導入のメリット、実践のポイントなどをDevOpsを実践する3社の事例を交えて解説します。 「DevOps」とは

      「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
    • AWS Systems Manager と PagerDuty を使用した高度な運用インシデント対応機能を発表

      AWS Systems Manager の機能である Incident Manager が、人気の運用インシデント対応ツールである PagerDuty と統合されたことを発表します。これにより、AWS の運用インシデント対応機能が強化されます。運用チームはアプリケーションの可用性とパフォーマンスに関する重大な問題の発生時に、迅速に関与、対応、解決できるようになります。 Incident Manager を使用すると、重大な問題が検出された際に、適切な担当者および情報を特定できます。それにより、事前設定した対応計画を開始し、SMS、電話、チャットのチャネルを使用して担当者と連携できます。また、AWS Systems Manager Automation のランブックを実行できます。Amazon CloudWatch アラームまたは Amazon EventBridge イベントによって、問題

        AWS Systems Manager と PagerDuty を使用した高度な運用インシデント対応機能を発表
      • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty

        DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対

          燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty
        • PagerDuty Incident Response Documentation

          このドキュメントは、PagerDutyにおけるインシデント対応プロセスが載っています。 重大インシデントや、新しくオンコールを始める社員の準備に利用している、PagerDutyの内部ドキュメントの一部を切り出したものです。 このドキュメントではインシデントに備えることだけではなく、インシデント発生中、また収束後の対応についても説明します。 オンコールを担当する人や、インシデント対応プロセスに関与する人(またきちんとしたインシデント対応プロセスを制定したい人)が読むことを想定しています。 このドキュメントが何なのか、なぜ存在するかは、「このドキュメントについて」を参照してください。 どこから手を付けるべきか? もしあなたがインシデント対応が初めてで、組織的な手順がない場合は、まず「はじめに」で何ができるかを確認してください。 そして詳細な手順を、Training Courseから確認すること

            PagerDuty Incident Response Documentation
          • PagerDutyでアラート管理を改善した話 - Tech Inside Drecom

            はじめに こんにちは。インフラストラクチャー部のひらしーです。 今回はPagerDutyを導入し、システムに異常が発生した際のアラート管理を改善した話を紹介します。 アラート管理改善前 解決すべき人へのエスカレーションが必要な問題発生時、以前は以下のような問題がありました。 通知手段がメールのみで、インフラチームのメンバーは全サービスのアラートを受け取って自分でフィルタリング・転送をする必要があり、問題のエスカレーション漏れや監視設定自体の見直しがされずに監視精度のばらつきが発生していた過去のアラート情報が集約できておらず、問題の傾向把握や類似の障害の検索が困難だった PagerDutyについて 上記の問題を解決するため、メール運用のまま手法のみ改善する運用や内製ツールの開発を検討しましたがトライアルでチーム内での評価が高かったためSaaSのアラート管理ツールであるPagerDutyを採用

              PagerDutyでアラート管理を改善した話 - Tech Inside Drecom
            • 大企業では生成AIの採用が進んでいないという結果に、その理由とは? PagerDutyが調査

              調査結果によれば、企業内でAIの可能性についての議論はますます活発化している一方で、調査対象者の全員がAIに潜むセキュリティリスクについて懸念していると答えており、51%が生成AIの採用を適切なガイドラインが整うまで見送るべきだと回答した。 調査対象者は、先進技術の潜在的なビジネス上のメリットと未来についてもっとも関心を持つ立場であり、46%が早急に生成AIの採用を進めなければ、競合に遅れを取る恐れがあると考えている。一方で、4分の1の調査対象者が生成AIを信頼していないと回答した。 その他のおもな調査結果は以下の通り。 50%が企業の評判に生成AIがもたらすリスクについて懸念していると回答 51%が著作権や法的リスクが非常に不安であると回答 51%が適切なガイドラインが整備されるまで生成AIの導入は検討していないと回答 正式なガイドラインを策定済みの企業は29%に留まり、66%はこれらの

                大企業では生成AIの採用が進んでいないという結果に、その理由とは? PagerDutyが調査
              • PagerDuty Incident Responseの邦訳版を公開しました | Folioscope

                こんにちは、ご無沙汰してます。 早速ですが、皆さんのチームにはインシデント発生時のプロセスが決められていますか? インシデント管理サービスを提供しているPagerDutyは、「PagerDuty Incident Response」というドキュメントを公開しています。 このドキュメントがすごく良いものだったので、このたび邦訳した物を公開することにしました。 https://ueokande.github.io/incident-response-docs-ja/ このドキュメントはなに? このドキュメントは、PagerDuty におけるインシデントの対応プロセスが紹介されています。 インシデント対応の準備や、新しくオンコールを始める社員のトレーニングに利用しているドキュメントです。 このドキュメントはもともと PagerDuty の社内ドキュメントとして利用していたものを、公開可能なものに

                  PagerDuty Incident Responseの邦訳版を公開しました | Folioscope
                • ZOZOTOWNの監視にモダンなツール(Datadog、PagerDuty、Sentry)を導入した話 - ZOZO TECH BLOG

                  こんにちは。カート・決済チームの濱砂です。 今回はZOZOTOWNのサーバーサイドの監視方法や取り組みについて紹介します。 はじめに 監視の課題 1. 可視化 2. アラートの検知 3. エラーの管理 改善後 1. Datadogで可視化 Sample Script DSL DatadogのDashboard 2. DatadogとPagerDutyでエラー検知 DatadogのSlack通知 DatadogのAlertの設定 PagerDutyのスケジュール設定 3. Sentryでエラーの管理 Sample Script Sentryに送られたエラー一覧 まとめ 最後に はじめに 現在、ZOZOTOWNでは現行のシステム基盤や開発プロセスをリプレイスするプロジェクトが進んでいます。 リプレイスは順調に進んでいますが、未だ多くは現行のまま動いており、在庫管理を行う基幹システムやバッチ処理

                    ZOZOTOWNの監視にモダンなツール(Datadog、PagerDuty、Sentry)を導入した話 - ZOZO TECH BLOG
                  • PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社

                    「Fortune 100企業の65%」が利用する 世界のデファクトスタンダード オペレーショナル・レジリエンスに必要不可欠なインシデント管理プラットフォームPagerDuty(ペイジャーデューティ)はシステムのインシデント対応を一元化するプラットフォームです。システム障害対応に費やす時間を軽減し、貴重なエンジニアリソースをビジネス拡大に充てることができます。

                      PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社
                    • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                      DevOpsの導入によって、開発エンジニアがサービスの信頼性と可用性に対する責任を負い、オンコール対応に携わるようになりました。オンコールは重要な職務ですが、精神的な負荷が大きいため不安を感じる方も多く、いわゆる「燃え尽き症候群」に陥る方も生じます。 そこで今回は、PagerDutyコミュニティのメンバーから寄せられた、オンコール対応の不安を取り除く方法や、オンコールローテーションに臨む際のアドバイスをご紹介します。ぜひ、今後の参考にしてください! インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧

                        オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                      • インシデントコマンダー - PagerDuty Incident Response Documentation

                        Credit: NASA インシデントコマンダーになりたいですか。 あなたは正しい場所にたどり着けました! インシデントコマンダーはシニアメンバーである必要はなく、必要な知識があれば誰でもなることができます(もちろんインターンも含みます)。 目的# インシデントコマンダーの目的を1文でまとめるなら インシデントを解決に導く インシデントコマンダーは重大インシデント発生中に意思決定をします。 インシデントを解決するために、タスクを委譲し内容領域専門家からの意見を聞きます。 日々の地位に関係なく、重大インシデントでは最も位の高い人です。 コマンダーとしての意思決定は確定的なものです。 インシデントコマンダーとしての仕事は、他の背景情報や詳細情報を集約して明確な調整をするために、通話を聞きインシデントのSlackルームを見ます。 インシデントコマンダーは、任意のアクションの実行や修正をしたり、グ

                          インシデントコマンダー - PagerDuty Incident Response Documentation
                        • 業務プロセス自動化による 「ビジネス価値・ROI測定方法」解説ガイド│資料一覧│リアルタイムインシデント対応ソリューション│PagerDuty

                          「IT自動化プロジェクト」の予算を社内で確保するためにはアイデアだけでは不十分です。現在の経済状況において、プロジェクトの実行を正当化するためには「プロジェクトがどのような価値を提供し、企業のビジョンや目標をどのようにサポートするか」を示す必要があります。 本ガイドでは、PagerDuty「Process Automation」プロジェクトがもたらす「ビジネス価値を効果的に示すための具体的なヒントやアイデア」を解説します。ビジネスを自動化する価値は「何を自動化するか」によって大きく異なります。さらに、的確なROIの算定には人間によるワークフローでは実現できない多くの自動化の実行回数による効果を具体的に測定する必要があります。 本ガイドでは、現在の御社のビジネス状況から収集すべき「ベースとなる指標」から「自動化対象のワークフローの利点」まで、御社が進めるべき「自動化プロジェクトのROI・ビジ

                            業務プロセス自動化による 「ビジネス価値・ROI測定方法」解説ガイド│資料一覧│リアルタイムインシデント対応ソリューション│PagerDuty
                          • Anti-Patterns - PagerDuty Incident Response Documentation

                            Home Getting Started On-Call Being On-Call Who's On-Call? Alerting Principles Before an Incident What is an Incident? Severity Levels Different Roles Call Etiquette Complex Incidents During an Incident During an Incident External Communication Guidelines Security Incident After an Incident After an Incident Postmortem Process Postmortem Template Effective Postmortems Crisis Response Crisis Respons

                              Anti-Patterns - PagerDuty Incident Response Documentation
                            • 「インシデント管理」とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty

                              近年、金融機関や通信会社などで多発しているシステム障害。システムが1分停止すると約100万円、24時間で約10億円の損失が起きるともいわれています。現代社会では、クラウド化やデジタルトランスフォーメーションの進展により、私たちの生活がITサービスやITシステムに依存しています。このような状況下でシステムが停止することは、日々の生活に大きな影響を与えることになります。救急車のIoT装置や病院の電子カルテシステムなど、障害によりシステムが停止することで、時には人の命にも関わる可能性があり、社会課題の1つとなっています。 システム障害の発生の大きな原因として、「原因究明や回復対応に時間がかかる」ために発生するようにも思えますが、本質的な課題は「システム運用監視体制」が整っていなかったことにあると考えられます。ますますデジタル化が進む中で、システム障害は必ず起きるものであり、ゼロにすることは不可能

                                「インシデント管理」とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty
                              • 全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers

                                こんにちは!NewsPicksエンジニアの森川です。今回はNewsPicksのオンコール(=障害対応)体制の変遷と試行錯誤をご紹介したいと思います。 オンコール1.0 ~ 全員野球時代 ~ オンコール2.0 ~ 当番制時代 ~ 1. 専門外のアラートに対応できない 2. 対応するエラーの数が多すぎる 3. 勤務時間の自由度が減る 4. slackに気づけない オンコール3.0 ~ PagerDuty時代 ~ 1. アラートを緊急度で仕分け 2. 当番ローテーションの変更 3. PagerDutyの導入 おわりに オンコール1.0 ~ 全員野球時代 ~ NewsPicksにはエンジニア全員が入るslackチャンネルがあり、ここで周知事項の共有や雑談、問い合わせがされています。昔はこれに加え不具合の報告や監視システムからのアラート通知もこのチャンネルに流れるようになっており、アラート通知は気づ

                                  全員野球からPagerDutyまで。NewsPicksのオンコール体制はどう進化してきたか。 - Uzabase for Engineers
                                • PagerDutyにProduct Evangelistとして入社しました - Cloud Penguins

                                  インシデント対応プラットフォームとして知られるPagerDutyに、Product Evangelistとして入社した。 ▲マスコットのペイジーくん Evangelistを仕事にするよ コミュニティ活動で知り合った人からは、「お、ついに本職になるんだね」と、あまり違和感なく受け入れられるんじゃないかなと思っている。むしろ、「今まではDevRelじゃなかったのか」とまで思われるかもしれない。そう、これまではPre-sales Engineerだったし、それより前はProfessional Serviceだったので本業におけるコミュニティ活動はあくまでもボランティアだったのだ。 逆に、自分と付き合いが長い人からすると「え、DevRel? おまえDevRelにはならないって言ってなかったっけ?」と驚かれるんじゃないかと思う。そう、自分はDevRelにはならねぇ!と公言していた時期もあったのだ。

                                    PagerDutyにProduct Evangelistとして入社しました - Cloud Penguins
                                  • PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub

                                    はじめに こんにちは!freee の Enabling SRE チームに所属している阿部 寛明 (uryy)と申します。freeeのシステムを運用する際にはDatadogからの通知をもとにアラート対応するケースが多いのですが、組織拡大により従来の方法ではうまくワークしない箇所もでてきたので改善に取り組んでおります。今回はその一環で進めているPagerDuty導入の取り組みとその際に気づいたTipsについて紹介します。 PagerDutyについて PagerDutyは監視ツールやアプリケーションからのアラートを受けてインシデント発生を担当者にオンコール通知するプラットフォームサービスです。オンコール機能だけでなく、受け取ったアラートのトリアージやシフトに基づいたエスカレーションも可能となっています。freeeでは下記図のようなシステム連携の環境構築を進めています。 システム連携イメージ 現在

                                      PagerDutyを用いたアラート対応改善の取り組みとTips紹介 - freee Developers Hub
                                    • 障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty

                                      本記事では、主に新しくインシデント対応・管理を担当することになった皆様に向けて「インシデント対応者になったら、まず把握すべきこと」をテーマにPagerDuty公式ブログの中から入門記事を厳選してご紹介します。新人のインシデント対応者の方はもちろん、基礎的な部分の学び直しなどにもお役立て頂けますと幸いです。今後、関連記事が公開次第順次更新していきます。 ブックマークおすすめです! 概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対

                                        障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty
                                      • 「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

                                        ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることが重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE(Site Reliability Engineering・サイト信頼性エンジニアリング)」です。この記事では、SREの基本を知りたい方に向け「概要」「主要な指標」「DevOpsとの違い」「SRE実践におけるポイント」といったポイントをわかりやすくご紹介します。 SREとは 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運用を支えるための方法論とし

                                          「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
                                        • ポストモーテムテンプレート - PagerDuty Incident Response Documentation

                                          これはPagerDutyで利用している標準的なポストモーテムのテンプレートです。 それぞれのセクションでは、あなたがポストモーテムに書くべき情報について説明します。 ガイドライン このページはインシデント発生後5営業日以内に設定されるポストモーテムのミーティングで確認することを目的とします。 最初のステップはインシデント発生の5営業日以内に、共有カレンダーにミーティングを設定することです。 情報が埋まるまでミーティングの設定を待ってはいけませんが、ミーティングまでにページができているようにしてください。 ** ポストモーテムのオーナー:** ここにはあなたの名前が入ります。 ** ミーティングの対象:** インシデント発生後5営業日以内に、「インシデントポストモーテムミーティング」を共有カレンダーにスケジュールします。ここに日付を入力してください ** 通話の記録:** インシデントの通話

                                            ポストモーテムテンプレート - PagerDuty Incident Response Documentation
                                          • Twilio も PagerDuty も使わない、アラート電話の仕組みを構築した話 - asken テックブログ

                                            こんにちは。asken でインフラエンジニアをしている沼沢です。 今回は、緊急性の高いアラートを検知した際の電話連絡の仕組みについてお話します。 抱えていた課題 弊社では、元々システム監視はしていたものの、検知時はメールや Slack の通知に留まっており、システムが深刻な状態となった場合に架電する仕組みがありませんでした。 休日や夜間に深刻な状態となった場合にメールや Slack 通知だけでは気付きづらく、早急に対処しなければならない状況の検知が遅れる懸念がありました。 検討したソリューション Twilio まず、自身が利用したことのある Twilio を使った架電を検討しました。 しかし思い出したのは、電話番号取得時に日本の法に準拠するために必要な各種手続きの面倒さでした。 https://support.twilio.com/hc/en-us/articles/44061586621

                                              Twilio も PagerDuty も使わない、アラート電話の仕組みを構築した話 - asken テックブログ
                                            • dbt Cloudのジョブがエラーになったら(Cloud Runを使って)PagerDutyにインシデントとして挙がるようにしてみた | DevelopersIO

                                              大阪オフィスの玉井です。 dbt Cloudの利用が本格的になってくると、ジョブが何らかのエラーでこけた場合、早急な対応が求められてくると思います(データ変換が止まる→BIツールや機械学習等といった下流のデータ利用に支障が出る→ビジネス的にヤバい)。 そういうユーザーのために、dbt Cloudには、ジョブが失敗したときの通知の仕組みに関する機能が色々用意されています。その中でも、今回はPagerDutyと連携する方法を実際に試してみました。 やることの概要 Webhookを利用する 最近(2023年3月現在)、dbt CloudのジョブがWebhookに対応しました。 これまでは、dbt側のAPIを定期的にポーリングする等して、こちら側が能動的にジョブのステータスを確認する必要がありました。しかし、Webhookに対応してくれたおかげで、こちら側から定期的に確認せずとも、ジョブがこけたタ

                                                dbt Cloudのジョブがエラーになったら(Cloud Runを使って)PagerDutyにインシデントとして挙がるようにしてみた | DevelopersIO
                                              • ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty

                                                オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて

                                                  ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty
                                                • PagerDutyでアラートメール通知を電話通知に変える - GMOインターネットグループ グループ研究開発本部

                                                  こんにちは。次世代システム研究室のM.Mです。 近頃のWEBサービスは、他社のサービスや自社でも他グループのサービスと連携して構成されているケースが多いのではないでしょうか? サービス間同士の連携について意識した設計がされていないと、あるサービスがダウンしたら、引きずられて私たちが開発・運用するサービスも提供できない状態になってしまうことがあります。 その逆もあり、私たちが開発・運用するサービスがダウンしたら、連携しているサービスも提供できなくなってしまうこともあります。 もちろんそのような障害が発生しないような設計や対策をすることも重要ではありますが、特に障害発生後に盛り上がる問題があります。 障害に気づくのが遅い。 障害の連絡がない。遅い。 誰が対応しているのか分からない。 状況確認したくて連絡するが、担当者につながらない。 私たちが開発・運用するサービスの障害に、私たちより先に連携し

                                                  • インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty

                                                    前回は、何故インシデントコマンダーに注目が集まっているのか、そしてどのような役割なのかを解説しました(インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜)。今回はよりインシデントコマンダーの業務について踏み込んで解説を行っていきます。 おさらい: インシデントコマンダーとは 前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割 意思決定 作業担当への指示 作業要員や関連部署の招集・体制構築 ステークホルダーとのコミュニケーション 状況の交通整理 インシデントの発生と収束の宣言 ポストモーテムの作成指示 インシデント発生時

                                                      インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty
                                                    • PagerDuty の導入支援 | クラスメソッド株式会社

                                                      クラスメソッドのAWS総合支援 コスト最適化からセキュリティ、構築支援、運用保守まで、AWS活用を支援します。

                                                        PagerDuty の導入支援 | クラスメソッド株式会社
                                                      • PagerDutyにAmazon GuardDutyを統合してアラートを通知させてみた | DevelopersIO

                                                        PagerDuty x Amazon GuardDutyでSaaSを利用したGuardDutyのインシデント管理を体験してみませんか?? みなさん、こんにちは。 明るい笑顔がトレードマーク、ルイボスティーが大好きな芦沢(@ashi_ssan)です。 みなさん、インシデント管理していますか? AWS上のシステムを安定稼働させるために、サーバーメトリクス、ログ、セキュリティなどをはじめとした項目の監視は必須ですよね。 AWSにおける監視サービスといえばCloudWatchがありますが、リソースを監視をより楽にするツールはAWS以外にたくさんあるため、運用負荷を軽減するためのツールの導入を進めていくとアラートを検知した際の通知や煩雑になってきます。 さらに、インシデントが起きた際はさまざまな監視ツールでアラートが検知されることもあると思います。その度複数のツールを行き来していると疲弊してしまうで

                                                          PagerDutyにAmazon GuardDutyを統合してアラートを通知させてみた | DevelopersIO
                                                        • PagerDutyのオンコールシフトをSlackでリマインドする〜TypeScriptとAWS CDKで実装〜 - Qiita

                                                          この記事はPagerDuty Advent Calendar 2023の25日目の記事です。 PagerDutyのオンコールシフトをSlackでリマインドしたい 🎄メリークリスマス🎅 NewsPicksのSREチームで障害対応をよくやっているあんどぅといいます。 先日、ゆるSRE勉強会 #3という勉強会でNewsPicksの開発組織のオンコールの体制とポストモーテムの取り組みを発表させていただきまして、その文脈でPagerDutyをどのように活用しているのかを実装とともにご紹介させていただきます。 弊社ではモバイル担当1名サーバー担当2名の3名のエンジニアが一週間に2交代制(3.5日シフト)でオンコールを担当します。オンコール担当のことを運用当番と呼んでいるのですが、PagerDutyのオンコール設定は非常〜に便利なので 3.5日のうち有給取得するので1日だけOverride Laye

                                                            PagerDutyのオンコールシフトをSlackでリマインドする〜TypeScriptとAWS CDKで実装〜 - Qiita
                                                          • PagerDutyを活用したオンコール運用の軌跡

                                                            こんにちは! 株式会社ココナラのHead of Informationに任命された ゆーた(@yuta_k0911)です。 PagerDuty Advent Calendar 2023の18日目の記事です! ココナラでは2016年からPagerDutyを使っています。(私が入社する4年も前から・・・) PagerDuty導入以前のオンコール運用や導入後から現在に至るまでどのような利用・工夫をしていて、今後どう利活用しようとしているか?をアドベントカレンダーの記事にしてみます! 私の推し機能も紹介します。 ぜひ、PagerDutyを利用検討中の方もご覧ください! 実は会社名義でアドベントカレンダーに参加するのはこれが初めてです💦 初歩的な内容が多いと思いますが、お付き合いください🙇‍♂ ココナラでのPagerDutyの使い方 PagerDutyを使い始めたのは私が着任する前ですので、想像

                                                              PagerDutyを活用したオンコール運用の軌跡
                                                            • Amazon EventBridge入門 PagerDuty連携を試してみた | DevelopersIO

                                                              こんにちは。 ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きな吉井 亮です。 アメリカ時間 2019年7月11日に Amazon EventBridge が発表されました。 最も注目する機能は、SaaS アプリケーションからのデータ接続だと勝手に思っています。 感触をつかむために試してみました。 ユースケース Amazon EventBridge にユースケースが記載されています。 Zendesk チケットのステータスの変更を EventBridge に送信して自動化されたワークフローをトリガーする Zendesk チケットのステータスの変更から、機械学習を使って感情分析モデルのトレーニングやデプロイを行う Whispir コミュニケーションワークフローに脅威検出イベントを含める イベントベースのルールを使ってセキュリティシステムレ

                                                                Amazon EventBridge入門 PagerDuty連携を試してみた | DevelopersIO
                                                              1

                                                              新着記事