Amazon S3 en panne le 28/02/2017 – Un cas d’école ?

La fin février 2017 fut le théâtre d’un gros fail pour Amazon : son service « AWS S3 » est tombé en panne pendant quelques minutes qui ont plongé certains services dans le noir pendant plusieurs heures…

Sacrée effervescence sur le web ! Un service critique chez Amazon Web Services (AWS) s’est subitement mis en erreur et a provoqué tout une série de conflits et d’arrêts d’autres services. Le service « Simple Storage Service » communément appelé « S3 » d’Amazon est toute la base du stockage « cloud » pour la solution d’Amazon. Que s’est-il passé ?

[…] team was debugging an issue causing the S3 billing system to progress more slowly than expected. At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended […].

En bref, les équipes de techniciens ont détecté un problème dans le système de facturation du service S3 côté datacenter américain. Pour résoudre le problème, un membre a donc utiliser des commandes pour supprimer d’anciens serveurs inutilisés sur une première plateforme. Le problème, c’est que la commande saisie était erronée et a fait beaucoup plus de dégâts que prévu…

Tout un communiqué a été saisi à cette adresse pour le débrief complet du problème qui est survenu.


Les impacts mondiaux pour le « public »

De plus en plus de sites web et de services reposent sur l’infrastructure cloud d’Amazon (AWS). Etant donné que la partie S3 est critique pour ce cloud, une partie des services hébergés a donc été momentanément instable / tombée. Pour les utilisateurs, c’est une indisponibilité du site web ou du service concerné. Pour l’exemple, Netflix, Medium, Apple ou encore Soundcloud ont subi des perturbations. Forcément, pour les utilisateurs de ces services, il s’agit aussi d’une indisponibilité.

Certains hébergeurs reposant sur les solutions d’Amazon se sont eux-aussi trouvés dans la panade : puisque leurs solutions/prestations reposent sur des instances sous-louées par la suite, de nouvelles indisponibilités ont donc été de mise.


Les impacts mondiaux pour Amazon

Malgré cette erreur humaine dont personne ni aucun système est à l’abris, Amazon reste une référence en la matière de cloud. Sa puissance est telle que ce genre de blocage n’empêchera pas la société de continuer son développement et son accroissement. La dernière panne de ce genre (c’est-à-dire bloquante) remonte quand même à 2015. Le plus gros impact fut certainement financier – Compte-tenu du nombre de clients et d’instances qui y ont été mis en place, il est évident que certains clients « grands comptes » aient justement demandé des comptes à Amazon…

Sachez toutefois que les erreurs ont été réparé, les serveurs qui ont été effacés malencontreusement ont été restauré. Quelques jours après le problème, tout est revenu en ordre.


Quels enseignements en retirer ?

Ce couac d’Amazon S3 permet surtout de faire une bonne piqûre de rappel : il est crucial d’assurer une redondance de vos systèmes. En effet, côté Amazon, si le seul service S3 était le fameux « US » qui est tombé en panne, tout le cloud Amazon serait alors mis à mal et ce, de façon radicale… Le système de stockage est divisé en plusieurs sous-systèmes, eux-mêmes répliqués et redondés à plusieurs endroits géographiques. Ainsi, même si une partie du stockage est corrompu ou mis à mal, tout n’est pas défaillant. Le service est donc perturbé mais pas totalement coupé.

Pour les clients, l’utilisation d’Amazon est certes un très gros service à valeur ajoutée, il ne faut toutefois pas négliger l’étude d’une seconde solution et d’un solution de secours – communément appelé « PRA » (Plan de Reprise d’Activité). L’idéal, pour un client souhaitant utiliser la puissance « cloud », ce serait d’utiliser deux PaSS en même temps, tout en scindant les services critiques sur ces deux PaSS… Il est évident qu’une étude de coût est à effectuer, de même qu’une étude technique pour s’assurer de la faisabilité du projet. Avec une telle organisation, vous permettez à vos services d’être un minimum « resilient », disponibles et d’assurer une sécurité de vos données.Encore une fois, je suis conscient que ce genre d’architecture est à étudier et à réfléchir.

Les prestataires (et concurrents) comme Amazon sont parmi les plus connus Microsoft (Azure), Google (Cloud Platform) et IBM. Comme quoi, personne est infaillible, même si les moyens techniques, financiers et humains sont derrière tout un système conçu pour être robuste et le plus disponible possible…

sources :

http://www.zdnet.fr/actualites/le-service-s3-d-aws-victime-d-une-panne-aux-us-39849182.htm

http://www.theverge.com/2017/2/28/14765042/amazon-s3-outage-causing-trouble

À lire sur Numerama : AWS est tombé : pourquoi le web vous semble cassé

Amazon AWS S3 outage is breaking things for a lot of websites and apps

http://thehackernews.com/2017/03/amazon-web-storage.html

http://www.zdnet.fr/actualites/panne-du-service-s3-d-aws-amazon-evoque-une-erreur-humaine-39849318.htm?utm_source=dlvr.it&utm_medium=twitter#xtor=123456

http://gizmodo.com/amazon-says-one-engineers-simple-mistake-brought-the-in-1792907038

http://www.linformaticien.com/actualites/id/43340/la-panne-du-service-s3-d-aws-est-due-a-une-erreur-humaine.aspx

https://aws.amazon.com/fr/message/41926/

Julien H

Passionné depuis toujours par l'informatique, je transforme ma passion en expertise. J'utilise quotidiennement les outils et systèmes Microsoft. Je ne délaisse pas mon côté ouvert, notamment via l'utilisation des OS Debian et Archlinux. L'infosec m'ouvre les yeux sur les enjeux actuels et futurs de l'IT.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Fermer
Fermer