Le Bar de Gandi

Accueil > Gandi > Le filer 13 : Epilogue

Le filer 13 : Epilogue

Rappel des faits :

  • Suite à la perte simultanée de 2 disques sur le filer 13 le jeudi 15 mai, nous avons envoyé un mail d'urgence aux personnes concernées pour les prévenir d'archiver leurs données car il y avait un risque potentiel.
  • Jeudi soir, juste avant la fin de la reconstruction RAID, un troisième disque a lâché (sur du matériel neuf de 'qualité'), nous avons alors stoppé les serveurs pour ne pas corrompre le volume group et tenté, sans succès, de le récupérer dans la nuit de jeudi à vendredi.
  • Vendredi matin, nous avons contacté les clients du filer 13 et commencé la reconstruction des serveurs. Au vu du nombre de serveurs, le processus allait être assez long mais aurait dû se finir dans la nuit de vendredi à samedi...sauf que le filer utilisé a commencé à avoir les mêmes symptômes que le filer 13, de même pour les suivants. En fonction de l'attitude du fournisseur concerné dans les jours à venir, nous n'excluons aucune hypothèse vu le préjudice occasionné par leur matériel défectueux.
  • Après plusieures heures pour préparer en urgence de nouveaux filers d'autres fournisseurs, le processus de reconstruction a repris dimanche soir pour se finir pour 90% des gens mardi matin. Nous avons ensuite passé une journée à traiter manuellement les 10% restants, et à calmer les effets de bord, notamment sur le mail qui a souffert (mais la situation est revenue à la normale). Pour GandiMail, de gros moyens sont en cours de déploiement pour assurer une qualité de service irréprochable.
  • Aujourd'hui, tous les serveurs du filer 13 ont été reconstruits et les clients qui avaient commandé un serveur depuis jeudi soir ont été servis.


Dédommagements :

  • Les clients impactés par le filer 13 et la perte de leur données sont en train d'être remboursés intégralement de l'ensemble des sommes déboursées sur leur compte prépayé. Nous sommes en beta, mais nous sommes intransigeants.
  • Nous avons prolongé de 5 jours la validité des parts de tous les clients bloqués entre jeudi et lundi.


Les mesures en cours :

  • Le changement d'architecture pour fournir l'hébergement haute disponibilité promis lors du lancement de l'offre avait été décidé avant même le crash du filer 13. En effet, si une machine sur laquelle votre serveur est hébergée tombe en panne, l'incident est déjà transparent pour vous, si un disque (ou 2) ne fonctionne(nt) plus, le RAID 6 fait que l'incident était lui aussi sans effet pour le client. Nous voulions que la perte totale d'un filer le soit aussi. L'architecture de stockage est donc en cours de modification. La version finale de l'offre n'arrivera que quand cela sera effectif.
  • Un système de backup, vous assurant que vos données sauvegardées ne sont pas dans la même salle que vos disques principaux, est également en préparation. Les salles sont soit déjà finies, soit en cours de finalisation.
  • Nous sommes en discussion avec le fournisseur des filers défectueux (et je leur souhaite de bien saisir la gravité de la situation) et d'autres fournisseurs pour prendre les mesures qui s'imposent.


Je tiens ici à témoigner mes remerciements à tous les clients qui, malgré les pannes sur un produit technologique avancé et en beta (il faut toujours le rappeler), ont toujours affiché un soutient positif et indispensable.

Je tiens également à dire à mon équipe que je suis fier de travailler avec eux. Ce qu'ils ont fait est admirable. Ce qu'ils continueront de faire l'est tout autant. Merci.