火曜日の大規模なアマゾン ウェブ サービスの停止は人為的ミスによって引き起こされたと小売業者は認め、Apple を含む多くのオンライン サービスに影響を与えたダウンタイムは、デバッグ中に実行された単一の誤ったコマンド入力に遡ることができました。
のお客様への注意事項US-East-1 リージョンの S3 (Simple Storage Service) の中断について、チームは S3 課金システムの動作が予想よりも遅くなる問題に取り組んでいることを報告しました。チーム メンバーの 1 人は、請求プロセスのサブシステムに使用される少数のサーバーを停止するために「確立されたプレイブック」からコマンドを実行しましたが、誤って必要以上のサーバーを停止しました。
「残念ながら、コマンドへの入力の 1 つが間違って入力されたため、意図したよりも多くのサーバーが削除されました」と Amazon のメモには記載されています。
追加のサーバーは、他の 2 つの S3 サブシステムをサポートするために使用されました。1 つは、サービスがデータ ストレージと管理タスクを実行するために必要な、リージョン内のすべての S3 オブジェクトのメタデータと位置情報を管理するために使用される「インデックス サブシステム」です。 2 番目の「配置サブシステム」は機能するためにインデックス サブシステムに依存しており、新しいデータにストレージを割り当てるために使用されます。
これらのサブシステムの両方で十分な数のサーバーがダウンしたため、容量が低下し、チームはすべてのシステムを再起動する必要がありました。この再起動期間中、S3 はリクエストを処理できず、Amazon の Elastic Compute Cloud (EC2)、Elastic Block Store (EBS) ボリューム、AWS Lambda、S3 コンソールなど、リージョン内の他の AWS サービスにも影響しました。
Amazonによると、S3のサブシステムは「顧客への影響をほとんどまたはまったく与えずに、重要な容量の削除や障害をサポートするように設計されている」もので、システムに障害が発生して別のシステムに置き換えられることを前提に構築されているという。 「何年も」インデックスサブシステムの完全な再起動が行われていないことを指摘し、AWS の大幅な成長により、サービスの再起動と安全性チェックの実行のプロセスに「予想よりも長い時間がかかっている」と述べた。
このような間違いがさまざまなサービスに再び大きな影響を与えることを防ぐために、各サブシステムに必要な最小容量レベルを維持するための安全策が追加され、容量の削除がよりゆっくりと行われるようにツールが変更されました。他の運用ツールも監査を受け、同様のチェックが実施されていることを確認します。
さらに、インデックス サブシステムのパーティションを再分割し、より小さなセクションに分割して復旧時間を短縮する作業が行われています。
AWS ユーザーにサービスのステータスを表示するページである Service Health Dashboard は、機能するために S3 に依存していて更新できなかったため、ダウンタイム中に問題が発生したことを表示できませんでした。 Amazon はダッシュボードを更新して、複数の AWS リージョンにわたって機能するようにし、単一のリージョンに依存せずに機能するようにしています。
Amazonはこの出来事が顧客に与えた影響について謝罪してメモを締めくくっている。 「私たちは Amazon S3 の可用性に関する長年の実績を誇りに思っていますが、このサービスが当社の顧客、そのアプリケーション、エンドユーザー、そして彼らのビジネスにとってどれほど重要であるかを理解しています。」
「私たちはこのイベントから学び、それを利用して可用性をさらに向上させるために全力を尽くします。」
この障害により、S3 に依存する多くの Web サイトや、サービスに Amazon のクラウド サーバーを使用していた多くのアプリに問題が発生しました。アップルの顧客も障害の影響を受け、iOS および Mac App Store、iCloud Drive、Notes、iCloud バックアップ、Apple TV、Apple Music の一部のユーザーがダウンタイム中に問題に遭遇しました。
Apple は脱却を進めていると考えられている。アマゾンに頼る代わりに独自のデータセンターを作成することで、クラウド サービスを利用できるようになります。 Apple のメサ施設は「」に生まれ変わります。グローバルコマンドセンター」と同社は新しいデータセンターの設立に取り組んでいます。アイルランドとデンマーク。
アップルの既存のリノ データセンター、Siri、FaceTime、iMessage などのタスクを処理するため、将来的にはそのサイズが増加する可能性があります。最近、Apple が約 5,070 万ドルをかけてデータセンターを 375,000 平方フィート以上拡張する計画であると報じられました。