タグ

障害に関するbobbyjam99のブックマーク (16)

  • みずほシステム障害、今は1時間で対応 「だからできてるって言ってるじゃない」2月に就任の木原正裕FG社長:東京新聞 TOKYO Web

    みずほフィナンシャルグループ(FG)の木原正裕社長(56)は紙のインタビューで、顧客に影響の大きいシステム障害が今後発生した場合には、障害を把握してから「1時間以内に連絡が来る。部長レベルの会議もやる」と述べた。昨年2月の障害発生時に前社長らの把握が遅れたことについては、「僕にはメールも来るし重要なものは電話も来る」として、現在は改善したと説明した。(皆川剛)

    みずほシステム障害、今は1時間で対応 「だからできてるって言ってるじゃない」2月に就任の木原正裕FG社長:東京新聞 TOKYO Web
    bobbyjam99
    bobbyjam99 2022/04/26
    "「グーグルは(社内で安心して意見を言える)心理的安全性が高い会社と言われている。」” / "「だからできてるって言ってるじゃない」"
  • みずほFG 業務改善計画案 “システム要員確保や企業風土改善” | NHKニュース

    去年、相次いだシステム障害をめぐり、みずほフィナンシャルグループが来週、金融庁に提出する業務改善計画案の全容が明らかになりました。システムの開発や保守に必要な要員を確保するとともに、企業風土の改善に向けた取り組みを継続的に行うなどとしています。 みずほがまとめた業務改善計画の案によりますと、金融庁から現場を軽視した人員の配置転換などによってシステムの運営態勢を弱体化させたと指摘されたことを踏まえ、システムの開発と保守の業務量に応じて安定稼働に必要な要員を確保するとしているほか、現場の声を人員や予算の配分に反映させ、機動的に見直す仕組みをつくるとしています。 また、システムの管理態勢を強化するため、持ち株会社と銀行、それにシステム子会社の3社が情報や課題などを共有する仕組みを新たにつくり、緊密に連携するとしています。 さらに、「言うべきことを言わない」などと指摘された企業風土の改善に向けて、

    みずほFG 業務改善計画案 “システム要員確保や企業風土改善” | NHKニュース
    bobbyjam99
    bobbyjam99 2022/01/14
    “年に2回、システム障害を集中的に振り返る期間を設け、当事者が語り継ぐ映像を配信”
  • 「33自治体のデータがIaaSから消失」、日本電子計算がシステム障害の詳細明かす

    電子計算は2019年12月16日、自治体向けIaaS「Jip-Base」を利用中の自治体でシステム障害が発生している問題について記者会見を開き、山田英司社長が「大変申し訳なく思っている」と謝罪した。同社によると、15%のデータはIaaS内のバックアップも見つからず、単独での復旧が不可能。残りの70%は復旧、15%は復旧作業中であることが明らかとなった。 これまで「50自治体」としていたのは、正確には47自治体と、6の広域事務組合や図書館であることも説明された。バックアップが見つからない15%には、このうち33自治体のデータが含まれるという。システム構成も一部が明らかにされ、仮想環境で1318の仮想OSが稼働していたことが判明した。 日電子計算は復旧作業に当たって、IaaS内からOSやアプリケーション、業務データを含む仮想環境のイメージデータを復旧したり、イメージデータを同社のバックア

    「33自治体のデータがIaaSから消失」、日本電子計算がシステム障害の詳細明かす
    bobbyjam99
    bobbyjam99 2019/12/17
    "EMCジャパンもクリティカルなバグだとの認識ではなかった。重要度の低いものとして知らされていたのであれば、日本電子計算側で適用していなかっただろう"
  • HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可

    HPEのサーバー向けSAS SSD、稼働32,768時間超えでデータ喪失。復旧も不可
    bobbyjam99
    bobbyjam99 2019/12/06
    “【12月5日更新】なお、日本電子計算株式会社が5日に発表した自治体専用IaaSサービス「Jip-Base」の障害について、「ストレージのファームウェアが原因」としているが、同社広報によると本件とは無関係としている。”
  • AWS障害回避のための対策をまとめたホワイトペーパーを公開しました - 株式会社サーバーワークス

    サーバーワークスは、2019年8月23日(金)にAWS東京リージョン(AP-NORTHEAST-1) で発生した障害を受け、障害の概要と今後ビジネスに影響を及ぼさないための対策をまとめたホワイトペーパーを公開いたしました。 ■背景 東京リージョンの1つのアベイラビリティゾーンで発生した、制御システムの複合的な不具合によって、いくつかのAWSサービスが影響を受けました。 ECサイトやゲームを含む国内多数のサービスにも影響が生じ、クラウド利用に対する不安が広がりました。今回のような障害に備えるためには、提供しているサービスの稼働レベルを考慮した上で最適な構成を選ぶことが求められます。 当社はAWSのプレミアコンサルティングパートナーの視点で障害発生時からホームページ等で障害に対するお知らせや提言を公開してまいりました。今回それらをまとめ対策として解説することで、お客様のクラウド環境最適化に寄与

    AWS障害回避のための対策をまとめたホワイトペーパーを公開しました - 株式会社サーバーワークス
  • AWS大障害、冗長構成でも障害あったと公式に認める

    米アマゾン ウェブ サービス(Amazon Web Services)は2019年8月23日に発生したクラウドサービス「Amazon Web Services(AWS)」東京リージョンの大規模障害に関して同月28日、新しい報告をWebサイトに掲示した。障害が発生したサービスを追加したほか、利用企業が複数のアベイラビリティーゾーン(独立性の高いデータセンター群、AZ)横断の冗長構成にしたシステムにも一部で障害(予期せぬ影響)があったと認めた。 障害が発生していたサービスとして追加したのは日経 xTECHの既報の通り、アプリケーションロードバランサーの「Amazon ALB」、インメモリーキャッシュの「Amazon ElastiCache」、データウエアハウスの「Amazon Redshift」、仮想デスクトップの「Amazon Workspaces」などだ。仮想マシンの「Amazon EC2

    AWS大障害、冗長構成でも障害あったと公式に認める
    bobbyjam99
    bobbyjam99 2019/08/29
    "東京リージョンの複数のAZで冗長構成にしていたシステムでも特定の条件下で想定より高い割合でエラーを返すといった「予期せぬ影響」があったことを確認"
  • ソフトバンク、通信障害の原因を公表 エリクソン製交換機ソフト更新で11カ国影響 - ITmedia NEWS

    ソフトバンクは12月6日、同日発生した携帯電話ネットワークの通信障害について、原因を公表した。 通信障害は12月6日午後1時39分から午後6時4分にかけて、ソフトバンクとワイモバイルの4G(LTE)、固定電話サービスの「おうちのでんわ」、LTEを利用した自宅・家庭用Wi-Fi「SoftBank Air」で発生した。影響を受けた台数は現在調査中だ。 午後1時39分に東京センターと大阪センターのエリクソン製パケット交換機全台数で、ソフトウエアに異常が発生。これまで9カ月の運用では異常は見られなかったという。エリクソンからの連絡によれば、同社製の通信設備を使用する海外11カ国の通信事業者でもほぼ同時刻に同様の問題が発生したとソフトバンクは説明。エリクソン製通信設備を導入している英国O2の通信障害も同様の原因と想定される。 ソフトバンクでは、今後はエリクソンと共同で徹底した再発防止に取り組んでいく

    ソフトバンク、通信障害の原因を公表 エリクソン製交換機ソフト更新で11カ国影響 - ITmedia NEWS
    bobbyjam99
    bobbyjam99 2018/12/07
    証明書が切れてるなら世界的に全滅なのは納得
  • 失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 人間は失敗するものです。エンジニアもまたしかり。Retty株式会社の樽石CTOが考える、失敗を学びに変える考え方とノウハウを紹介します。 はじめまして。Retty株式会社でCTOを務める樽石将人( @taru0216)です。Rettyにおける技術の責任者として不確実性の高いシステム開発を成功に導くよう牽引したり、メンバーが働きやすくなるような仕組みづくりを行ったりしています。 子供の頃からパソコンに親しみ、新卒一期生でレッドハットに就職して、Rettyに入社するまでGoogle楽天を経てきました。エンジニアとして活動して約30年。日々失敗し続けていますし、過去には大規模サービスを止めてしまったこともあります。 人間である以上、バグやエラーは必ず起こるもの。エンジニアは失敗を繰り返

    失敗を学びに変える「障害報告書」の書き方 ─ RettyのCTOがGoogleで学んだ「問題を隠さない文化」 - エンジニアHub|Webエンジニアのキャリアを考える!
  • 障害発生のお詫びと、今後の対応方針について | SmartHR|シェアNo.1のクラウド人事労務ソフト

    こんにちは、SmartHR のCTO(最高技術責任者)の佐藤と申します。 まずは、5月下旬に複数回の障害を発生させてしまい、SmartHR の安定的な利用ができない状態が続いてたことをお詫びいたします。大変申し訳ありませんでした。 社内でも、重要な問題であり、早急に改善の必要があると認識しております。今後の対応方針を協議いたしましたので、ユーザーの皆様にもご報告いたします。 ユーザーの皆様に、まず安心していただくために、これらの状態は一時的なもので、改善可能な問題であることをお伝えしておきます。 一連の改善終了後は、より安定的なサービスの提供が実現することをお約束致します。 障害が増えている背景と課題 まず、障害が増えてしまった背景をお伝えいたします。 もともと SmartHR は、週1回以上の高い頻度でアップデートを行っているサービスです。これは、新しい機能をいち早くお届けしたい、サービ

    障害発生のお詫びと、今後の対応方針について | SmartHR|シェアNo.1のクラウド人事労務ソフト
    bobbyjam99
    bobbyjam99 2017/05/30
    “具体的には、セキュリティ強化を目的とし、お客様ごとにデータベースを用意(1企業1データベース)しているのですが”
  • AWS S3の長時間サービス停止の原因はエンジニアの入力ミス

    Amazon.com傘下のAWSは3月2日(米太平洋時間)、2月28日にクラウドストレージサービス「S3」の北バージニアリージョン(US-EAST-1)で起きた大規模なサービス停止の原因と対策を発表した。 原因は、エンジニアの入力ミスだった。 同日の午前9時37分、S3の課金システムのデバッグ中、S3のサブシステム用の少数のサーバの接続を解除しようとした際、コマンドの入力を誤り、意図したよりも多数のサーバを解除してしまった。その中の2つのサーバが、同リージョン内のすべてのS3オブジェクトのメタデータと位置情報を管理するインデックスサブシステムと、運営にとって重要な配置用サブシステムだったため問題が大きくなった。 問題解決のためにはこれらのサーバを再起動する必要があり、再起動するまでの間、S3でサービスリクエストが受けられなくなっていた。S3 APIも利用できなかったため、EC2、EBS、

    AWS S3の長時間サービス停止の原因はエンジニアの入力ミス
    bobbyjam99
    bobbyjam99 2017/03/03
    "S3のサブシステム用の少数のサーバの接続を解除しようとした際、コマンドの入力を誤り、意図したよりも多数のサーバを解除してしまった" サーバID指定じゃなかったってことかな
  • 「Z会」システム障害で教材配布できず 2017年度の新規申し込みを当面停止

    通信教育大手「Z会」は1月30日、システム障害により一部サービスが提供できなくなっていると発表しました。サイトによると、現在、4月から開始される「2017年度コース」の多くが新規受付を停止している状態です。 公式サイトのトップページでも告知 同社は2017年度より新たな通信教育システムへの移行を予定していましたが、この過程で技術上のトラブルが発生。教材印刷用のデータ作成に不具合が生じ、2017年度コースの教材を予定通り提供できない状況になったとのこと。教材の提供については開講直前になる見込みで、現在、学習への影響を最小限に留めるべく、無償で「代替教材」を送付する準備を進めているとしています。 現在も障害解消の具体的な見込みは立っておらず、今後については2月中旬をめどにあらためてサイトで発表する予定とのこと。各種コースの詳細な提供状況についてはサイトにて。 なお、システム障害はあくまで技術

    「Z会」システム障害で教材配布できず 2017年度の新規申し込みを当面停止
    bobbyjam99
    bobbyjam99 2017/01/31
    "2017年度より新たな通信教育システムへの移行を予定していましたが、この過程で技術上のトラブルが発生。教材印刷用のデータ作成に不具合が生じ、2017年度コースの教材を予定通り提供できない状況"
  • ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

    同期処理が失敗した原因は、4台をつなぐスイッチの不具合。具体的には、スイッチが故障状態であるにもかからず、故障を知らせる「故障シグナル」を発信しなかった。国内線システムは故障シグナルを検知するとスイッチを予備機に切り替えるが、今回はその機能そのものを作動できなかった。 スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」(同)。そのため、DBサーバー間の同期は順次失敗し、停止していったと見られる。 ANA広報によると、スイッチは米シスコシステムズ製「Catalyst 4948E」という。「2010年6月の発売開始以降、世界で4万3000台、うち日で8700台を販売しているが、今回の不具合は初めての事象と聞いている」(ANA広報)。なぜ「故障シグナル」が発信できなかったかは分かっていない。 1台での縮退運転を決断 4台の完全停止から37分後、ANAは1台のDBサーバー

    ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン
    bobbyjam99
    bobbyjam99 2016/03/31
    半死にだ。
  • 全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴

    ※ANAの記者会見にて原因が発表されました。原因について追記してます。 全日空のシステムトラブルで連休開けの空港はまさに混乱状態だったみたいですね。 全日空では、22日午前8時20分ごろからシステムトラブルのため、羽田や大阪、それに福岡など各地の空港で、国内線の搭乗手続きができなくなりました。 このため一部の便が欠航したり、出発便に遅れが出たりしていましたが、復旧作業を進めた結果、全日空によりますと午前11時半すぎにシステムが復旧し、順次、搭乗手続きを再開しているということです。全日空は「ご迷惑をおかけし申し訳ない」と話しています。 全日空では先月24日にも同じシステムがダウンし、全国の空港で30分間、搭乗手続きができなくなるトラブルが起きています。 全日空によりますと、システムトラブルのため、午後1時40分現在、羽田を発着する便など合わせて116便が欠航し、およそ1万5000人に影響が出

    全日空システム障害の原因は?評論家は相変わらず何もわかってない! | IT虎の穴
    bobbyjam99
    bobbyjam99 2016/03/23
    現場はつらいと思うけどね。少なくとも楽しくはないはず。
  • Amazon Web Servicesの障害はなぜ起こったのか アマゾンが詳細な経緯と対策を発表 − @IT

    2011/04/30 米Amazon Web Services(AWS)は米国時間4月29日午後、同社のブロックストレージサービス「Amazon Elastic Block Store(EBS)」および、リレーショナルデータベースサービスの「Amazon Relational Database Service(RDS)」における約4日間にわたる障害につき、詳細な経過報告と対策を発表した。これによると、障害のきっかけはネットワークの構成変更作業におけるミスだった。同社は今回の障害が複数のAvailability Zone(AZ)に影響を与えた理由も説明した。 AWSが発表した今回の障害に関する説明(英語) EBSはAWSの仮想サーバサービスであるAmazon EC2のインスタンスから、仮想ディスクとして使える永続ストレージサービス。実態としてはディスクを備えたノード(コンピュータ)の集合体を

  • 株式会社ミクシィ

    株式会社ミクシィ・ミクシィグループの公式企業サイトです。企業情報、IR・投資家情報、ニュースリリース、採用情報などを掲載しています。

    株式会社ミクシィ
  • Google「このサイトはコンピュータに損害を与える可能性があります。」障害祭り, Google 障害祭りに関する各質問サイトでの状況 - [ぴ](2009-01-31)

    _ [ネット諸々][Google] Google「このサイトはコンピュータに損害を与える可能性があります。」障害祭り 23時台後半、Google 検索すると何を検索しても (ほぼ?) 全ての検索結果「このサイトはコンピュータに損害を与える可能性があります。」と表示されてアクセスがブロックされる症状に遭った。 Google の障害っぽいなーと思いつつしばらく Yahoo! で代替。Yahoo! 検索を使ったのは何年ぶりだろうか… 速報 Googleに不具合 全検索結果に「コンピューターに損害を与える可能性」とメッセージ@ITmedia Googleのありとあらゆる検索結果に「このサイトはコンピュータに損害を与える可能性があります」と表示される事態が発生@GIGAZINE ITmedia と GIGAZINE 仕事速杉w (深夜だというのに障害発生後数十分後には↑が掲載されてた) 続報 全ての

    Google「このサイトはコンピュータに損害を与える可能性があります。」障害祭り, Google 障害祭りに関する各質問サイトでの状況 - [ぴ](2009-01-31)
  • 1