タグ

システム障害に関するrryuのブックマーク (179)

  • Google Cloudによる「顧客のシステムを間違って全削除」、発生の原因は? 報告記事が公開に

    この記事は新野淳一氏のブログ「Publickey」に掲載された「Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス」(2024年5月28日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 米Google Cloudは、同クラウドユーザーであるオーストラリアの年金基金「UniSuper」で発生した大規模障害の原因について報告する記事「Sharing details on a recent incident impacting one of our customers」を公開しました。 今月(2024年5月)初旬、Google Cloud上で稼働していた数百の仮想マシン、データベース、アプリケーションを含むUniSuperのプライベートクラウドが突如として原因不明のまま削除され、復旧されるまでの

    Google Cloudによる「顧客のシステムを間違って全削除」、発生の原因は? 報告記事が公開に
    rryu
    rryu 2024/05/28
    サービスの有効期限をうっかり1年と設定されたので、1年後設定通りにサーバが消えるとか怖すぎる。
  • グリコ、障害で売上200億円の損失…ベンダのデロイトに損賠賠償請求の可能性

    江崎グリコの公式サイトより ほぼすべてのチルド品(冷蔵品)が、社内のシステム更新作業に伴う障害により出荷停止となっている江崎グリコ。4月初めに障害が発生し、出荷再開時期がいまだに未定という異例の事態を受け、同社は今月8日、システム障害によって2024年12月期の営業利益が60億円、売上高が200億円下押しされる見通しだと発表した。業績に多大な悪影響が生じるため、グリコがシステム更新プロジェクトの主幹ベンダであるデロイト トーマツ コンサルティングに損害賠償を求めて法的手段を取る可能性も取り沙汰されている。今後の展開について業界関係者や専門家の見解を交えて追ってみたい。 グリコは業務システムについて、独SAPのクラウド型ERP「SAP S/4HANA」を使って構築した新システムへ切り替えるプロジェクトを推進してきた。旧システムからの切替を行っていた4月3日、障害が発生し、一部業務が停止。

    グリコ、障害で売上200億円の損失…ベンダのデロイトに損賠賠償請求の可能性
    rryu
    rryu 2024/05/10
    デロイトが損害賠償に応じず「うちはちゃんとやった」と主張すると訴訟になる訳だが、1日保たずにコケるシステムをリリースしたのは果たしてどちらが原因なのか…
  • 江崎グリコの基幹システム移行トラブルについてまとめてみた - piyolog

    2024年4月5日、江崎グリコは基幹システムの切り替え後にシステム障害が発生し、同社や販売委託を受けている一部の冷蔵品の出荷に影響が生じていると公表しました。ここでは関連する情報をまとめます。 障害後緊急対応するも在庫数合わず業務停止 今回システム障害が起きたのは江崎グリコの基幹システムで2024年4月3日の新システムへの移行に伴い発生した。物流、販売、会計などを一元管理するERPパッケージ SAP社製「SAP S/4HANA」で構築されており、「顧客への継続的価値創出を可能にするバリューチェーン構築と経営の迅速な意思決定を目的とした、調達・生産・物流・ファイナンスなどの情報を統合する基幹システム」と同社では説明している。障害原因の詳細は同社から開示されてはいないが、システム障害の問題個所の特定は済んでいる。なおサイバー攻撃によるものではないと取材に答えている。*1 システム障害の影響に

    江崎グリコの基幹システム移行トラブルについてまとめてみた - piyolog
    rryu
    rryu 2024/04/26
    出荷処理は続けられると思っていたということは入荷処理に問題があったということなのだろう。データ不整合で出荷もできないということは在庫全廃棄なのだろうか。つらすぎる…
  • 【独自】プッチンプリン出荷停止の「主犯」はデロイト!グリコのシステム刷新で1年遅延の末に障害発生“ボロボロ案件”の実態

    コンサル大解剖 「勝ち組」としてバブルを謳歌するコンサルティング業界。市場の急膨張を背景に、業界の序列を巡って多種多様なプレイヤーがバトルを繰り広げている。アクセンチュアやBIG4、戦略系ファーム、国内コンサルITベンダーから総合商社に広告代理店……。各社の成長戦略や人材戦略に加え、コンサルを活用する事業会社側の思惑まで、大乱戦期を迎えたコンサルビジネスの最前線を追う。 バックナンバー一覧 品大手、江崎グリコで起きた大規模システム障害で、原因となったシステム刷新のプロジェクトを手掛けた主幹ベンダーがデロイト トーマツ コンサルティングであることが分かった。復旧には時間がかかる見通しで、主力商品の「プッチンプリン」などが出荷できず、小売店の棚から消えている。長期連載『コンサル大解剖』内で配信している特集『デロイト内部崩壊』の第10回では、プロジェクトの詳細や大幅遅延など混乱の様子に加え、

    【独自】プッチンプリン出荷停止の「主犯」はデロイト!グリコのシステム刷新で1年遅延の末に障害発生“ボロボロ案件”の実態
    rryu
    rryu 2024/04/24
    デロイト側が原因だったら訴訟間違いなしだが、なんでリリースを強行したのだろう。
  • DB呼び出し回数を減らしてコア機能を高速化した話。そして起こった悲劇と教訓 - Money Forward Developers Blog

    初めに こんにちは、マネーフォワードクラウド連結会計(以降、クラウド連結会計)のバックエンド開発に従事しているTaskと申します。 今回は、クラウド連結会計のコア機能を高速化した話と、それが原因で起こった金額の不整合障害から得られた教訓を紹介しようと思います。 記事内では、前提として簿記2級相当の知識や用語が頻出します。 連結会計とは まず、クラウド連結会計が扱っている連結会計について説明させてください。 連結会計とは、親会社・子会社など、支配もしくは従属関係にある複数の会社を1つのグループと捉えて、そのグループの決算を行うための会計手続きを指します1。 下の図の「連結グループA」の決算を行うイメージです。 この業務を「連結決算業務」と呼びます。 連結決算を行うことによって、会社の利害関係者(債権者や株主など)は各社単体だけではなく、グループとしての財政状態・経営成績・キャッシュフローの

    DB呼び出し回数を減らしてコア機能を高速化した話。そして起こった悲劇と教訓 - Money Forward Developers Blog
    rryu
    rryu 2024/03/29
    実は不備があるがたまたまうまくいっている処理を改修したらその不備が顕在化したというあるあるな話。
  • [Ruby]うるう日の午前0時から9時までに起動したプロセスでのみ再現するサーバー障害

    原因調査 エラーの発生箇所の特定 このエラーIncorrect datetime valueはデータベースのdatetime columnに対して不正な値を書き込もうとしたことが原因で発生しています。通常のINSERT statementを使って、過去の時刻を書き込むことはほとんどありませんが、MySQLなどに用意されているINSERT … ON DUPLICATE KEY UPDATE statementを使って複数の行を更新するときには、過去の時間を使ったクエリが生成されます。 例えば、複数の消耗品を所持しており、1つのクエリで複数の所持数を変更するときは、下記のようになります。 // PK(user_id, item_id) SELECT * FROM items WHERE user_id = 123; user_id | item_id | quantity | created_

    [Ruby]うるう日の午前0時から9時までに起動したプロセスでのみ再現するサーバー障害
    rryu
    rryu 2024/03/11
    なぜ0時から9時まで限定なのかはgmtime_with_leapsecondのバグがUTCにすると日付が前日に戻るときに発生するかららしい。その時に常に閏年扱いになってしまうので日付が狂う。
  • 3万2768時間が経過して発生した石巻市戸籍情報システムの障害についてまとめてみた - piyolog

    2024年2月14日、宮城県石巻市は2023年9月に発生したシステム障害について原因がSSDの重大なファームウエア不具合であったと公表しました。ここでは関連する情報をまとめます。 重大な不具合情報が共有されずシステム障害発生 2023年9月当時にシステム障害が発生したのは石巻市庁内で稼働する戸籍情報システム。システムが稼働するサーバー上で使用していたSSDの不具合によりバックアップサーバーを含めてシステム停止が起こり、市役所やコンビニなどで戸籍証明書の発行が行えない事態となった。2日後には最新の戸籍証明書の写しは発行できるようになった*1ものの、完全復旧(除籍や改製原戸籍の証明書発行)には約1か月(2023年9月20日~2023年10月18日)を要することとなった。 障害影響が長期化した理由として、市は当該システム上で取り扱うデータが戸籍にかかわるもので、復旧方法および突合などに万全を期

    3万2768時間が経過して発生した石巻市戸籍情報システムの障害についてまとめてみた - piyolog
    rryu
    rryu 2024/02/21
    稼働時間が約3年9か月を超えると突然何もできなくなるSSDとか怖すぎる。
  • Gmailで問題が生じる神奈川県立高校ネット出願システムの被疑箇所を調査、改善策を検討してみた | DevelopersIO

    神奈川県高校入試のネット出願システムの不具合影響を受けた利用者として、Gmailを扱えないメール環境について外部から調査しました。 出願システムで独自実装されたメールシステムの不完全な実装と、メール関連のDNSの設定不備が原因であった可能性が高いと推測します。 2024年の神奈川県立高校入試出願システムの不具合の影響を受け、@gmail.comのメールアドレス を利用出来なかった一利用者として、 インターネットから参照可能な範囲で、出願システムのメール環境について調査。 被疑箇所の推定と、状況を改善する対策について検討する機会がありましたので、紹介させて頂きます。 神奈川県公立高等学校入学者選抜インターネット出願システムの稼動状況について MX設定 「mail.shutsugankanagawa.jp」のMXレコードを確認しました。 1/18(21時) $ dig mx mail.shut

    Gmailで問題が生じる神奈川県立高校ネット出願システムの被疑箇所を調査、改善策を検討してみた | DevelopersIO
    rryu
    rryu 2024/01/19
    送信だけでなく受信もあったのか。あのMXの設定でも受信できるところがあるんだ…
  • 高校入試の出願システム、Gmailにメール届かず……神奈川県、受験生に「@gmail.com以外のアドレス使って」

    神奈川県教育委員会が2024年1月4日にリリースした、公立高校入試のインターネット出願システムで、「@gmail.com」ドメインのアドレスにシステムからのメールが届かず、受験生が出願用アカウントを作成できない問題が起きている。 15日夜時点でも解消しておらず、県教委は受験生に対して、「@gmail.com以外のメールアドレスで登録してほしい」と呼び掛けている。 このシステムは、公立高校の2月入試に出願する受験生などが利用する。中学校で受け取った書類に書かれたURLから出願サイトにアクセスし、メールアドレスなどを登録して「志願者アカウント」を作成すると、出願サイトへのログインに必要な「登録番号」がメールで届く、という流れだ。 だが、登録したメールアドレスが「@gmail.com」の場合、登録番号入りのメールが届かない不具合が起きているという。 新システムによる出願は1月4日に受付スタート。

    高校入試の出願システム、Gmailにメール届かず……神奈川県、受験生に「@gmail.com以外のアドレス使って」
    rryu
    rryu 2024/01/17
    新システムによる出願が1月4日から開始だから最初から動いてなかったぽい。状況からするとMXの設定がひどすぎて架空のメアドがFromに設定されている扱いなんじゃないだろうか。
  • サイトを停止させた話 ~慢心は敵!バックアップはゼッタイ!~ - Qiita

    はじめに 番環境などでやらかしちゃった人 Advent Calendar 2023 という Advent Calendar 2023 があることを知りまして、自戒を込めて投稿したいと思います。 この記事は、番環境などでやらかしちゃった人 Advent Calendar 2023 の10日目です。 使用・登場するものたち iMac(使用PCWordPress React X サーバー(ホスティング先) Cyberduck(FTPサーバー) やらかし、その概要 2つあるのですが、やらかしとしては同じ内容(サイトを停止させてしまった)なのでまとめて書いていきます。どちらもホスティング先は Xサーバー を使用しています。 1:WordPressサイト運用において、FTP サーバー(Cyberduck)での操作ミスでサイトを停止させた話 2:React制のサイトでサブドメインへのホスティング

    サイトを停止させた話 ~慢心は敵!バックアップはゼッタイ!~ - Qiita
    rryu
    rryu 2023/12/12
    GUIのFTPクライアントで本番環境のファイルをダウンロードだけしようとしている時に「ここでうっかりあれをドラッグしたりクリックしたりしたら大変なことになるな」と思っていたが、やはりうっかりする時があるのか…
  • カンファレンスイベントで会場回線を過信してはいけない - notokenの覚書

    前段 PHP Conference Japan 2023が 10/08 に大田区産業プラザPiOで行われたわけですが、開会直後に提供している無線LANがいきなり不安定になってしまい、そのまま一部の部屋以外で提供できない状態になってしまった。 この記事では、なぜそのようなことが発生してしまったか?という点に関して解説しようと思う。 結論 会場側設備として入っているNAPT-BOXが YAMAHA RTX1200 という 15年前*1に発売されたルータで、来場者を捌けるだけのNAPTセッションテーブル*2が備わっておらず、NAPTテーブル溢れ*3を起こしてしまった。 事前知識 NAPT Network Address Port Translation 1つのグローバルIPアドレスを複数のホストで共有するための仕組み。この機能により1つのグローバルIPアドレスを複数のクライアント(コンピュータや

    カンファレンスイベントで会場回線を過信してはいけない - notokenの覚書
    rryu
    rryu 2023/12/08
    QUICはUDPが使えなければTCPにフォールバックするらしいが、NAPTテーブル不足でUDPできない時はTCPもできないので詰むと。UDP禁止にすれば問題ないというのがなんとも言えない。
  • ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話 - Qiita

    はじめに この記事は、番環境などでやらかしちゃった人 Advent Calendar 2023 の6日目です。 この記事で取り上げるやらかしは数年前の出来事です。 当時新卒2年目のエンジニアだった私が、ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話について、ここに供養させていただきます。 自分の失敗談なんて書きとぉないんじゃ、、というのが音ですが、毎年やらかし系のアドベントカレンダーに勇気と希望をもらっていたので、今年は私もその一助となれたらという思いです。 やらかして死にたくなっているあなたへ。 背景 新卒で入社した会社で社内システム向けインフラの保守運用に携わっていました。 2年目となって仕事にも慣れてきた頃(フラグ)、事を起こしてしまいました。 環境 やらかしの対象となった環境はこちら。 AWS環境上で、ロードバランサとしてELBがあり、その配下にサーバ(

    ロードバランサ配下のサーバを全部切り離してサービス停止させてしまった話 - Qiita
    rryu
    rryu 2023/12/06
    実は作業前から正常に動いていなかったというのは稀によくあるので、作業前に正常に動作していることを確認するのは割と重要。
  • 全銀システム障害とは何だったのか【鈴木淳也のPay Attention】

    全銀システム障害とは何だったのか【鈴木淳也のPay Attention】
    rryu
    rryu 2023/12/05
    要はヒープオーバーフローな訳だが、メインフレームはセグメンテーションフォルトとかしないのだろうか。
  • 全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表

    全国銀行資金決済ネットワーク(全銀ネット)とNTTデータは12月1日、10月10日〜11日に発生した全銀システムの大規模障害の真の原因を明らかにした。 全銀システムは、日常の振込や送金をリアルタイムで処理するシステムで、国内のほぼすべての預金取扱金融機関が利用している。10月のシステム障害では三菱UFJ銀行、りそな銀行など10行で、他行宛の振り込みができないなどの障害が丸2日間継続した。 障害は、全銀システムの中継コンピューターを新機種「RC23シリーズ」へ交換し、その後営業運用を開始した直後に発生した。RC23シリーズ内の「銀行間手数料を処理するためのインデックステーブル」が破損しており、同テーブルを参照する際の処理でエラーが生じたためだ。 中継コンピューターは東京と大阪に1台ずつ、冗長化として設置されていたが、2台同時に新機種のRC23シリーズに切り替えたため、2台ともにソフトウェア障

    全銀システムの大規模障害、「真の原因」明らかに--全銀ネットとNTTデータが発表
    rryu
    rryu 2023/12/01
    結局原因は確保していたメモリ領域の不足で当初の報道の通りメモリ不足ということなのだが、このぐだぐだ感は一体なんなんだ…
  • NTTデータ、全銀ネットの障害対応を説明--根本原因にめども「包括的な点検が必要」

    全銀ネットでは、障害発生直前の10月7~9日に、全銀システムと金融機関の接続を中継するリレーコンピューター(RC)の更改作業を行った。NTTデータは全銀システムに携わっており、旧RC(RC17シリーズ)を新RC(RC23シリーズ)に更改するプロジェクトを担当している。更改は、金融機関で設置、稼働するRC17シリーズをRC23シリーズに更新した上で、稼働環境を全銀システムに集約するものとなる。 全銀ネットの10月18日の発表によると、障害はRCで処理する金融機関の送金/着金の手数料に関連した「内国為替制度運営費」で発生した。ここでの処理方法の1つに「あらかじめRCに設定されたテーブルを参照してRCが電文に金額を入力」があり、その処理にエラーが発生してRCが異常終了し、電文の送受信に影響が生じた。 NTTデータの説明によると、障害の直接的な原因は、上記の「あらかじめRCに設定されたテーブル」を

    NTTデータ、全銀ネットの障害対応を説明--根本原因にめども「包括的な点検が必要」
    rryu
    rryu 2023/11/07
    おそらく銀行側が作ったインデックステーブルの元データに仕様外の記述があったということなのだと思うが、根本的な原因をひたすらぼかすのは何故なのだろう。
  • 【緊急寄稿】全銀システム障害に日本全体が向き合うべき理由──“切り戻しできなかった”背景にあるもの

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    【緊急寄稿】全銀システム障害に日本全体が向き合うべき理由──“切り戻しできなかった”背景にあるもの
    rryu
    rryu 2023/10/30
    問題は全銀が切り戻しを強行できる立場になかったところにあるのだから、日本全体がどうこうしても無理なのではないだろうか。
  • 全銀システム システム障害に係る対応状況について

    rryu
    rryu 2023/10/19
    1回目の修正はテーブル参照がうまくいかないので同じ結果を出すコードを実装するという力技だったのか。なかなかの無茶振り…
  • 全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」

    全国銀行協会(以下、全銀)は10月18日、銀行間の送金を行う「全国銀行データ通信システム」(全銀ネット)で10日から11日にかけて発生した障害について会見を行い、現状を説明した。未だに根的な原因は特定できず、暫定的な“代替対応”のまま運用しているという。 不具合はシステムのリプレース直後に発生した。全銀は7~9日の3連休を利用し、加盟14銀行の中継コンピュータを「23シリーズ」と呼ぶ新機種に更新した。それまでの「17シリーズ」は各機関に設置していたが、今回は全銀センターに集約して運用する形にした。 9日までに製品単体試験から相互運転試験までいくつもの試験を行っていたが、不具合は見られなかったという。 しかし10日午前8時30分。システムが通信を始めると、10行の中継コンピュータで電文の送受信ができなくなった。りそな銀行や三菱UFJ銀行などで他行宛の振込取引ができない状態になった。 バック

    全銀ネット障害、いまだ根本原因特定できず メモリ不足の指摘には「分からない」
    rryu
    rryu 2023/10/19
    ディスク上のデータが既に壊れていたという話もあるから、仕様にない挙動でたまたまうまくいっていたとかだと、なんでそれでうまくいくのか分からないというのはありえる。
  • 全銀システム障害の原因判明、メモリー不足でインデックステーブルが不正確な状態に

    銀行間送金を担う「全国銀行データ通信システム(全銀システム)」で2023年10月10~11日に発生した障害の原因が10月16日、分かった。全銀システムと各金融機関のシステムをつなぐ中継コンピューター(RC)において、メモリー不足に起因し、金融機関名などを格納したインデックステーブルに不正な値が紛れ込んだ。 インデックステーブルはRCのディスク上にあるファイルから展開する。このファイルを作成するプログラムを実行したタイミングで、一時的に確保するメモリー領域が不足し、ファイルの内容が不正確になったという。 全銀システムの障害を巡っては、三菱UFJ銀行やりそな銀行などで他行宛ての振り込みに遅れが生じた。全銀システムを運営する全国銀行資金決済ネットワーク(全銀ネット)によると、概算値ながら10月10~11日の2日間で仕向けと被仕向けを合わせて500万件超の送金に影響が出たとしている。

    全銀システム障害の原因判明、メモリー不足でインデックステーブルが不正確な状態に
    rryu
    rryu 2023/10/17
    32ビットから64ビットへの移行の話からすると、ポインタとintが同じサイズだという想定の構造体で4バイトのint型のメンバに8バイトのポインタを書き込んだみたいな感じがする。
  • 「切り戻しよりリスクが低い」、全銀ネットが11日開催した説明会の一問一答

    全国銀行資金決済ネットワーク(全銀ネット)は2023年10月11日、銀行間送金を担う「全国銀行データ通信システム(全銀システム)」で発生した不具合に関してオンライン説明会を開いた。オンライン説明会は前日から2日連続での実施だ。1日目の質疑応答を踏まえ、全銀ネットの対応に対して厳しい質問が相次いだ。説明会の主な一問一答は以下の通り。 今回の更新作業は中継コンピューター(RC)のハードウエアとソフトウエアの両方を変えたのか? そのうち何が原因でトラブルが生じたのか? RCのハードウエアとソフトウエア両方のアップグレードを図った。そのうちソフトウエアに不具合が生じた。具体的には、内国為替制度運営費(旧銀行間手数料)の設定をチェックする機能にトラブルが生じた。 プログラム修正について、どのような改修を試みているのか? 電文の種類によらず、内国為替制度運営費を算出しない簡素型プログラムを作成し、RC

    「切り戻しよりリスクが低い」、全銀ネットが11日開催した説明会の一問一答
    rryu
    rryu 2023/10/13
    リスクというのはトラブルが生じていない銀行で「うちは関係ないのになんで戻すんですか」とごねられたりするリスクな感じがする。