[B! 運用] wata88のブックマーク

オブザーバビリティ研修実践編

株式会社サイバーエージェント AI事業本部 2024年度エンジニア新卒研修オブザーバビリティ研修実践編（一部社内向けの内容）

wata88 2024/05/23

リンク

プロダクトオーナーの考えるべきところ - kawaguti’s diary

プロダクトオーナー(PO)の考えるべきところ、もしくは「はまりがちな罠」について、いくつかのトピックを思いつくまま書き出してみました。悩めるPOさんの手助けになれば幸いです。序盤戦、中盤戦、終盤戦の戦略一番美味しいアイデアがでる可能性に備えるために引き継ぎにはコストがかかるので人を追加すると遅くなるシステムは利用者の数に従って情報が増えるので、リリース後が最も大変な時期になるシステムはハーモニーなので、継ぎ足して別の人を追加すると繋がらないあ、よければアギレルゴの認定スクラムプロダクトオーナー研修もご検討ください。著名な講師が通訳付きで教えてくれます。 1. 序盤戦、中盤戦、終盤戦の戦略「序盤で基礎を作って、作るスピードが上がってきたら、重要なところを作り、最後はウリになるものを作りこんでリリースする。」一見、良さそうに見える戦略ですが、これは結構危うい計画になりがちです。ユ

wata88 2023/06/21

リンク

あと2時間でElastiCacheのメモリが枯渇！そのときあなたは何をしますか？

突然ですが... あなたは、あるゲームプロジェクトの本番リリース2日前にサーバエンジニアとしてJOINしました。いざリリースを迎えたとき、ElastiCacheのメモリが突然危険域を超え、さらにあと2時間で枯渇しそうな状況になりました。さて、この状況におかれたあなたは何をしますか？はじめにモバイルゲームのシステムは新しいイベントをopenするとトラフィックが2倍、3倍、時には普段の10倍以上来ることがあり、トラフィックの変動が非常に大きい特性があります。新しいゲームのリリース時はより顕著で、想定以上のトラフィックが来ることもしばしばあります。この記事は、あるゲームプロジェクトの本番リリース時に大規模トラフィックが来た際のサーバトラブルを題材に、どのような観点で問題を切り分けていったのか、トラブルシュートのプロセスどのような準備(負荷テスト)をしていれば防げるのかという話をし

wata88 2020/12/18

日常だ

リンク

【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか〜社内向け障害対応リスト付き〜

「なんかアプリでインシデント起きてエンジニアがどこかで対応してるらしいよ」「インシデント時のお知らせって誰がどうやって出すんだっけ？」「インシデントの復旧作業って今どれくらい終わってる？」「あのインシデントって振り返りしたっけ？」「似たようなインシデント、前も対応したような、していないような」このような会話に覚えはありませんか？ FiNC Techno logies社 (以下FiNC) では今までインシデント対応をしていても自チーム内で対処しようとしてしまい、他の人が気づけないインシデント対応の仕方にフォーマットがなく、迅速な対応やお客様への報告ができないインシデントの振り返りが実施されず、インシデント時の知見が共有されないという問題がありました。それらの問題を気が付きやすく、シェアしやすくする = 統一のチャンネルで情報を整理し、そこにシェアしやすい空気を作る何をすべきかわ

wata88 2020/07/22

運用

リンク

書籍「Webエンジニアのための監視システム実装ガイド」発売！

システム監視の入門書籍を書きましたわたしが執筆したWebエンジニアのための監視システム実装ガイドが2020/3/24に発売されますました。予約受付中です。物理書籍・Kindle共に販売中です。 PDF版なら検索もできちゃいます。 ※このエントリを書いている時点でまだ表紙がfixしていませんが、黒バックにウミガメ写真になる予定です運用監視の会社でCTOとして勤続12年の知見を詰め込んだ、システム監視について幅広く取り扱った実践的な入門書です。読者の方に体系的な知識と価値基準を獲得してもらえるよう努めました。監視テクノロジの歴史や特徴、監視システムの基本動作と動作方式ごとの特徴、時系列データベース、DevOpsやSREなどのWebシステム運用の文化、SLO、SLI、Availability、Observability、自己修復システム、Chaos Engineering、監視方式の

wata88 2020/03/04

リンク

【レポート】ロマサガRSの大規模トラフィックを捌くAmazon ECS & Docker 運用の知見 #AWSSummit | DevelopersIO

こんにちは。サービスグループの武田です。プレイしてますか？ロマサガRS。私はやってます。総戦闘力はもうすぐ95万くらいです。メインスタ半にSSスタイル2倍キャンペーンなど、ハーフアニバーサリーのイベントで毎日忙しいですよね。AWS Summitに参加している場合じゃないですよ！いや参加している場合ですけども。 2019年6月12日（水）から14日（金）の3日間、千葉県幕張メッセにてAWS Summit Tokyo 2019が開催されています。こちらで講演されたセッション「I3-04 ロマサガRSの大規模トラフィックを捌くAmazon ECS & Docker 運用の知見」を聴講しましたのでレポートします。 AWS Summitでは全セッションで撮影が基本NGということですので、文字だけでお届けします。概要ロマンシングサガリ・ユニバースではローンチ直後、想定の数倍以上のトラフィック

wata88 2019/06/15

リンク

オブザーバビリティ（可観測性）がなぜ必要だと考えるのか - YAMAGUCHI::weblog

はじめにこんにちは、Stackdriver担当者です。本記事は完全に個人の意見です。（念押し） GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門監視 ("Practical Monitoring" の日本語訳)」が刊行されたことで、日本でもより多く耳にするようになりました。 SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム発売日: 2017/08/12メディア: 単行本（ソフトカバー）入門監視 ―モダンなモニタリングのためのデザインパターン作者:Mike Julian発売日: 2019/01/17メディア:

wata88 2019/03/25

リンク

Netflixにおけるフルサイクル開発者―開発したものが運用する - CARTA TECH BLOG

こんにちは。fluctでiOS/Android向けSDKの開発をしているarimuraです。この記事ではPhilip Fisher-Ogden、Greg Burrell、Dianne MarshによるFull Cycle Developers at Netflix — Operate What You Buildを私が翻訳したものを著者の許可のもとに掲載しています。元の記事は弊社の技術力評価会のインプットの一つとして共有されており、そこで興味を持ったのが翻訳するきっかけとなりました。以下、2018年5月時点における情報を記載したものであり Netflix Tech Blog「Full Cycle Developers at Netflix」より引用したものである。 Netflixにおけるフルサイクル開発者―開発したものが運用する 2012年―Netflixでの重要なサービスの運用は骨の折れ

wata88 2019/02/04

リンク

システム運用の現場でしか学べないことは他メンバーに積極的に経験してもらうべきだった - seri::diary

基本的に自分はタスクを拾いすぎてしまう傾向にある。それに加えて比較的朝型なこともあり、前職ではエンジニアの中で一番朝早く出社していることも多かった。*1 その結果どうなるかというと、朝出社して見つけた運用上のトラブルは大体自分がとりあえず手を付ける状態になっていた。前日の夜間バッチやその日の早朝に動くバッチがコケて問い合わせが来ているのでそのリカバリをする、前日にデプロイした後レスポンスが高くなってアラートが出ているのでその調査をする、web appがやたらと500系エラーを吐いているのでBugsnagを見る、等々。出社している以上無視するわけにもいかないというのもあるが、見つけてしまうと放っておけない性格ということもあり最優先でこれらの対応をしてしまっていた。お陰で前職で触っていたproductについてはかなり広範囲の知見があり、その行動がそれなりに社内での評価につながっていたのではな

wata88 2018/09/21

リンク

Googleが解説 - 他社のSRE実践はなぜ誤りなのか

GoogleのCRE(Customer Reliability Engineer)であるStephen Thorne氏が先日のDevOps Enterprise Summit Londonで講演し、SRE(Site Reliability Engineering)とは何か、その基本的な前提とメリットを理解できていない組織がいかに多いか、などについて解説した[スライドのPDF]。氏がこれまでに他の組織で見たおもな誤解は、早期の障害検出に重点を置いたSLO(Service Level Objective)や、あるいは過去のインシデントの金銭的保証に使用するSLA(Service Level Agreement)との混同、エラー予算を執行しない、SREチームの活動の少なくとも50パーセントをシステムやツールの改善に費やさず、“消防活動”という名の運用上の苦役に没頭させる、といったものだ。 SLO

wata88 2018/08/19

リンク

アドフラウドの脅威は「他人事」ではない！アドネットワーク事業を手がけるZucksの最新対策を聞く

『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

wata88 2018/07/14

リンク

[PDF] オンラインゲーム開発に欲しいプログラマーとその理由 ~ドラゴンクエストXの障害事例から~（青山公士） | 第2回オンラインゲーム・テクニカルオープンカンファレンス | SQUARE ENIX

wata88 2018/04/26

リンク

クラウドに基幹を移行して5年超経過 - 急がば回れ、選ぶなら近道

もう5年か、まだ5年というべきかちょっと判断に迷う。大抵の業務系のシステムがクラウドを始めるのは現実的には今年来年以降になるので、今の自分達の状況は多分、今後の業務系システムをクラウド移行したユーザの近未来になると思う。ので、予想的にまとめておく。本格的にクラウドを利用した業務アプリケーションの5年がどうなるかの一つの指針になるかと。以降は別に統計データでもなんでもなく5年間を眺めてみて自分の印象。・障害：大規模は５年で2-3回程度。一度は業務に影響が出て客先にお詫びに行った。AWSだったけど、サポートからは「もう回復してるのでチケットクローズね」みたいな話だったと記憶している。その後は大体四半期に一回程度のN/W障害。障害は普通に起きているし、オンプレと比べてどうか、という比較では細かい障害件数は減った気はしていない。ただし、「ドカンと来るでかい障害」は確実に減った。・データ増加対

wata88 2017/08/14

リンク

16年間うごいているWebアプリケーションが抱えていた技術的負い目を考察する | GMOメディアエンジニアブログ

技術推進室の浅井です。技術的負い目とは、世に言う技術的負債のことです。社内で技術的負債の定義、ことばの表現を考える中で、「『負債』は優れた比喩表現であるものの、第三者への返済義務がない点で会計上の負債とは異なり、言葉としての問題も多く、不必要な議論を生み出しやすい」などの指摘があり、代わりの表現として社内の一部で使われている言い回しです。最近社内のたいへん古いシステム（16年の歴史があります）の技術推進を行う機会があり、たくさんの技術的負い目と向き合いました。そのような古いシステムの技術的負い目と向き合ったとき、エンジニアはストレスを感じ、ネガティブな感情を抱いてしまいがちです。負い目に苦しめられることで過去のコードや技術的判断に対して不満を言いたくなる気持ちはとてもよくわかりますし、実際に私もたくさん苦しんでたくさん不満を言いました。ですが技術的負債の文脈でよく言われるとおり、

wata88 2015/12/26

貴い

リンク

監視アーキテクチャ(Sensu,Pingdom,Mackerel,StatusPage.io,PagerDuty)についてまとめてみる(2014年12月版) - Glide Note

Sensu Advent Calendarに便乗して、Kaizen Platform, Inc.の2014年12月現在の監視アーキテクチャの話をちょっとしてみようと思う。モニタリング領域サービスを監視している領域 Pingdom Pingdom - Website Monitoring 外部ネットワークからのサービスの死活監視。アメリカ、ヨーロッパ、アジアなどの拠点からサービスの死活監視が出来るため、特定の地域からアクセス出来ない場合なのが検知出来る。後述するstatuspage.ioとの連携で、障害を検知すると、サービスのステータス状況が自動で変わるようになっている Sensu Sensu | The open source monitoring framework. 監視フレームワークサーバを内部ネットワークから監視するために利用サーバのプロセス監視、サーバ間の疎通監視、エラ

wata88 2015/03/12

リンク

MySQLの冗長化 2013-01-24

＜SKILL BASECAMP 2013＞ MySQLの冗長化～無停止運用を実現するには～ http://www.pasonatech.co.jp/entry/index.jsp?mode=2&d=on&no=3756

wata88 2014/10/13

リンク

米動画配信のNetflix、Chaos MonkeyのおかげでAmazon EC2のメンテナンスリブートを難なく乗り切る

Amazon EC2は9月末、その内部で使用しているXenハイパーバイザのセキュリティリスクに対処するため、全インスタンスの約10％にあたるインスタンスに対して段階的にリブートを行うメンテナンスを実行していました。リブートをユーザーが回避する手段はなく、AWSから事前に通知を受けたユーザーはリブートによってデータを失ったりシステムがダウンしたりしないように、何らかの処置をする必要がありました。 AWS上で大規模なシステムを運用しつつもこのメンテナンスリブートを難なく乗り切ったのが、米国で動画配信サービスなどを運用するNetflixです。その理由は同社が開発したChaos Monkeyというツールにありました。同社のブログにポストされた記事「A State of Xen - Chaos Monkey & Cassandra」で、その顛末が紹介されています。 Chaos Monkeyによっ

wata88 2014/10/07

netflix△

リンク

Twitterのクジラ解剖学、あるいは彼らがいかにサーバの処理能力を向上させたか

Twitterを利用していると、ときどきクジラの絵の画面が表示されることがあります。これはTwitterの処理能力がパンクして一時的に利用不可になったときに表示されるお馴染みの画面。 2月9日にTwitter Engineeringブログにポストされたエントリ「The Anatomy of a Whale」（クジラの解剖学）では、Twitterのエンジニアたちがこのクジラの内部に分け入ってどのようにTwitterサーバの処理能力を向上させたのか、という話が詳しく語られています。彼らが行ったのは、まず詳細なデータを取得して原因がどの辺にあるのかを推測すること。そこから多数の無駄な処理を発見し、ソースコードの修正による性能の向上に成功します。元記事は非常に長いエントリになっていますが、問題の調査から解決に至るアプローチについて多くのエンジニアの方の参考になりそうな内容が含まれていますし、T

wata88 2013/10/19

リンク

Twitterの大規模システム運用技術、あるいはクジラの腹の中（後編）～Twitterのサブシステム「Unicorn」「Kestrel」「Flock DB」

Twitterの大規模システム運用技術、あるいはクジラの腹の中（後編）～Twitterのサブシステム「Unicorn」「Kestrel」「Flock DB」米サンタクララで行われていたWebサイトのパフォーマンスと運用に関するオライリーのイベント「Velocity 2010」の、Twitterのシステム運用について説明するセッション「In the Belly of the Whale: Operations at Twitter」（クジラの腹の中：Twitterでの運用）を紹介をしています。この記事は「「Twitterの大規模システム運用技術、あるいはクジラの腹の中（前編）～ログの科学的な分析と、Twitterの「ダークモード」」の続きです。 Twitterのサブシステム「loony」「Murder」「memcached」ここからはTwitterのサブシステムについて紹介しよう。 T

wata88 2013/10/19

リンク

運用担当者、激減中

ユーザー企業の情報システム部門で今、運用担当者の人数が大きく減り始めていることをご存じだろうか。運用業務には、「アプリケーション保守」や「OS/ミドルウエア運用」、「ITインフラ運用」などがあるが、あらゆる業務に関わる運用担当者が減少しているのだ。まずは4社の事例を紹介しよう。サイバーエージェント運用担当者の人数 20人→0人（予定）サイバーエージェントで消費者向けWebサービスを手がけるアメーバ事業本部では、現時点で20人いるOS/ミドルウエアの運用担当者を、2年後の2015年までにゼロにする計画だ。彼らは現在、OS/ミドルウエアをサーバーにインストールしたり、パッチを適用したり、アプリケーションの負荷に応じてサーバー台数を増減したりする業務を行っている。これらの業務を、オープンソースソフトウエアの運用管理ツール「Chef」を導入することで、自動化する計画だ（図1）。

wata88 2013/10/18

個別はまともに見えるのに、総論として運用担当者が絶滅みたいな話になるのはなんでなん

リンク

はてなブックマーク

タグ

関連タグで絞り込む (32)

運用に関するwata88のブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス