[B! SRE] wata88のブックマーク

オブザーバビリティ研修実践編

株式会社サイバーエージェント AI事業本部 2024年度エンジニア新卒研修オブザーバビリティ研修実践編（一部社内向けの内容）

wata88 2024/05/23

リンク

ChatGPTが登場した当初、対話や要約、翻訳、コード生成などの典型的な言語タスクができても、SREやAIOpsの研究開発にはあまり関係ないのではないかと正直思っていた。AIOpsでは典型的にはいわゆるObservabilityデータ（メトリクス、ログ、トレースなど）が入力となるため、自然言語ではなく数値のデータを解析することが求められる。自然言語のタスクを研究対象としていなかったため、AIOpsとChatGPTに強い関係性は見いだせなかった*1。しかし、自分で大規模言語モデル（Large Language Model: LLM）を日常的に使用したり、表題にあるようにSREのためのLLM（LLM for SRE, LLM4SRE）に関する論文を読むうちに、LLMのテキスト生成器としての性質よりもその優れた推論機械としての性質に注目するようになった。特にSREの障害診断は、人間の専門家が推

wata88 2024/03/21

SRE

リンク

限られた人数で MIXI のあらゆる公式サイト群を保守・運用するノウハウとその体制 | MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜

2023年10月31日に株式会社MIXIで行われた「MIXI SRE秋祭り〜 MIXIのもうひとつのSRE 〜」での発表資料です。イベントページ https://mixi.connpass.com/event/299121/ ─────────────── MIXIのSREは、サービスの信頼性に直接関わる負荷やコスト、システムの信頼性などをサービス開発と密接に連携しながら取り組むようなSREと、社内の共通課題やスポットで相談された事業などへの技術支援など、全社的なサービスの信頼性に関わるありとあらゆることに取り組むSREがいます。本イベントでは、後者の全社的なサービスの信頼性に関わるSREから、最近の取り組み事例を紹介させていただき、Q&Aの時間などを通して、ご参加の皆様と共に情報交換ができれば幸いです。 ◎こんな方におすすめ◎ ・SREとしてサイト信頼性だけでなく、企画や事業開発な

wata88 2023/11/01

SRE

リンク

インフラエンジニアはSREではないし、SREとPlatform Engineeringも別物 - inductor's blog

インフラエンジニアの肩書きをSREに変えるタイプの組織変更は近いところから遠いところまでいろんなところで見かけてるんだけど、改めてそれって名前変えただけじゃないよね？って問いかけは個人が組織に、組織が個人にそれぞれ相互でした方がいいと思う。インフラエンジニアって言葉もまあ定義が死ぬほど広くてどこからどこまで指すのってのは組織によって違うね大変だねって話ではあるんだけど、SRE(Site Reliability Engineering)やPE(Platform Engineering)はインフラと必ずしも対応関係にあるわけではないんだよな。 Platformってのは言ってしまえば会社のエンジニア組織の中で自分達に最適化された基盤を作る人たちの集合体とそのプロダクトそのものを指していて、Platform Engineering組織の中には当然フロントエンドエンジニアやデザイナー、プロダクトオ

wata88 2023/09/09

SRE

リンク

2022年版 OpenTelemetryを知れば世界が平和に - じゃあ、おうちで学べる

はじめに OpenTelemetryとは Opentelemetry のコンポーネント Opentelemetry のプロジェクトの仕様とStatus Tracing Metrics Logging(Specification にドキュメントがない) Baggage OpenTelemetry のSpanとTrace OpenTelemetry Collectorとは Collector のメリット OpenTelemetry Collector Architecture とは OpenTelemetry とSDKとパッケージ OpenTelemetry と自動計装今後のOpentelemetry について次回予告:OpenTelemetry とOpenTelemetry Collectorを使ったTracingとMetricsをアプリケーションで利用する方法参照リンクはじめに最

wata88 2022/07/14

SRE

リンク

'The human scalability of “DevOps”' by Matt Klein の日本語訳 - Qiita

この記事はEnvoyの作者であるMatt Kleinさんの以下の記事を The human scalability of “DevOps” 本人の許可をえて日本語訳したものになります。 Sure! — Matt Klein (@mattklein123) 2018年9月7日アメリカにはたくさんの急成長するスタートアップ企業があって、そういう所って、システム的/組織的な所の両面で、破綻させずにどうやってスケーリングしていくんかな〜と日々疑問に思っていて、この記事では主に組織的な所に関して色々と示唆があり、その内容から、やっぱアメリカ凄い(小並)ってのを感じたので、自分の中での腹落ち度合いを深めるためと、より多くの人の目に触れるといいなと思い、翻訳してみました。以下、翻訳になります。 "DevOps" の人的なスケーラビリティ最近Twitterに書いたように、"DevOps" の人的スケ

wata88 2021/02/24

devops
SRE

リンク

SLO、SLI、SLA について考える : CRE が現場で学んだこと | Google Cloud 公式ブログ

前回の『CRE が現場で学んだこと』シリーズでは、システムの可用性を担保するにあたってターゲットとする正確な数値をいかにして割り出すか、ということについてお話ししました。このターゲットをシステムのサービスレベル目標（SLO）と呼びます。今後、システムが十分な信頼性を保って稼働しているか、またシステムにどんな設計やアーキテクチャの変更が必要かについて議論する際は、システムが継続的に SLO を満たしているという枠の中で語る必要があります。 SLO の適合性は直接測定することが可能です。システムにおいて精査が成功した頻度で計るのです。これをサービスレベル指標（SLI）といいます。システムが過去 1 週間 SLO を満たしつつ稼働していたかどうかを評価する場合に、SLI からサービスの可用率を把握するのです。定められた SLO を下回っているとなれば問題があるということですから、他の場所に

wata88 2020/08/17

SRE

リンク

可用性とどう向き合うべきか、それが問題だ : CRE が現場で学んだこと | Google Cloud 公式ブログ

この『CRE が現場で学んだこと』シリーズでは前回、ロードシェディングという手法で「成功による障害」を切り抜ける方法について紹介しました。これに対して素晴らしいフィードバックをたくさんいただきましたが、その中に、いかにして数値を事業目標と結びつけるべきかという質問がいくつかありました。そこで今回は、最初の原理に立ち戻り、そもそも成功とは何を意味するのかを追究し、実際にシステムが成功しているかどうかを把握する方法について考えてみたいと思います。成功の前提となるのは可用性です。可用性のないシステムは機能を実行できませんし、最初の段階で失敗します。では、可用性とは一体何なのでしょうか。まずはこの言葉を定義しなくてはなりません。可用性とは、システムが意図した機能をある時点で実行できるかどうかということです。可用性の測定はレポーティングツールとして活用されるほか、過去の可用性を見ることで、

wata88 2020/08/17

SRE

リンク

SREをはじめる際のポイント：モニタリングとサービスレベルの考え方

近年、何かと話題に上がるSRE（Site Reliability Engineering）。しかし、「自分たちのチーム・組織に関係する話なのかよく分からない」「具体的に何をやればいいの？」といった感想を持つ方は多いのではないでしょうか。本連載では、そういった方に向けて、SREの考え方をご紹介します。連載の後半では、SREをいち早く取り入れた企業に導入背景などもインタビュー形式でお伝えする予定です。第三回となる本記事では、自社でSREチームの立ち上げを行ってきた筆者の経験をもとに、SREをはじめる際のポイントとして、実践的なモニタリングとサービスレベルの考え方についてお伝えします。はじめに株式会社スタディストSREチームの@katsuhisa__です。前回記事「SREをはじめるには、まずどうすればいいですか？ SREに必要なスキルと取り組み方」では、SREのはじめかたについて、スキルと取

wata88 2019/04/16

SRE
監視

リンク

SRE風のインフラエンジニアにならないために - Work Records

この記事は、SRE Advent Calendar 2018 - Qiitaの24日目として投稿しています。 SRE風のインフラエンジニア SREとDevOps そもそもDevOpsとは SRE本でも取り上げられている、DevとOpsの目的の差異ミクロなDevの目的ミクロなOpsの目的 Ops側の視点での安定性の考え方を改めるシステムを高速に更新可能にしておくことで安定性を担保するインフラエンジニアではなくSREとしてどう高速リリースを実現するかプロダクトの高速リリースに効くところを見極めるリリースするにあたっての心配事を潰す開発チームが自律して動ける仕組みやツールを提供する今の組織でやれていること開発チーム出身の人がSREチームにジョインしてくれている SREチームに入る新人のエンジニアさんもRails研修などを通して最低限の開発力を持っている SREチームのケツを叩い

wata88 2018/12/25

リンク

SpinnakerによるContinuous Delivery | メルカリエンジニアリング

SREの@deeeetです。新しい機能を素早くリリースしフィードバックを得てすぐにPivotの決定を行う、もしくはリスクを抑え小さな改善を継続的に行うContinuous Deliveryはソフトウェア開発において非常に重要です。メルカリではこのContinuous DeliveryのためのPlatformにSpinnakerを採用し始めました。現在は主にkubernetes（k8s）へのコンテナアプリケーションのDeployに利用しており、既にいくつかの本番アプリケーションがSpinnakerによりDeployされています。本記事ではなぜSpinnakerを採用したか、Spinnakerとは何か、実際にメルカリでどのようにSpinnakerを使っているか、について簡単な紹介をします。 kubernetes上でのDeploy問題 k8sへのコンテナイメージのDeployは非常に簡単で

wata88 2017/08/21

spinnaker、パワフルすぎて乗りこなすの大変そうな印象がある

SRE
docker

リンク

メルカリ新卒エンジニアはSREもサポートも経験する！ BABAROT Hiraku インタビュー｜ハイクラス転職・求人情報サイト AMBI（アンビ）

メルカリ新卒エンジニアはSREもサポートも経験する！ BABAROT Hiraku インタビューフリマアプリ「メルカリ」で、若手Webエンジニアはどんな活躍をしているのか。メンターによる育成の様子も交えてお送りします。若手エンジニアのための情報メディア「エンジニアHub」がスタートしました！本連載「若手エンジニア、どんな活躍してますか？」では、若手エンジニアが企業でどんなふうに働いているか、会社やメンターはどんなことを考えて育成しているかを探っていきます。 ── 第1回はフリマアプリ「メルカリ」！急拡大中の企業で、若手エンジニアはどんなふうに開発に携わっているのでしょうか。ということで、まずは自己紹介をお願いします。 BABAROT　初めまして、BABAROT (@b4b4r07 / id:b4b4r07) こと石山将来です。メルカリでサーバサイドエンジニアとして働いています。2

wata88 2017/01/27

SRE
engineer

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

SREに関するwata88のブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス