Le filer 13 : Epilogue
Par Stephan le mercredi 21 mai 2008, 13:30 - Gandi - Lien permanent
- Suite à la perte simultanée de 2 disques sur le filer 13 le jeudi 15 mai, nous avons envoyé un mail d'urgence aux personnes concernées pour les prévenir d'archiver leurs données car il y avait un risque potentiel.
- Jeudi soir, juste avant la fin de la reconstruction RAID, un troisième disque a lâché (sur du matériel neuf de 'qualité'), nous avons alors stoppé les serveurs pour ne pas corrompre le volume group et tenté, sans succès, de le récupérer dans la nuit de jeudi à vendredi.
- Vendredi matin, nous avons contacté les clients du filer 13 et commencé la reconstruction des serveurs. Au vu du nombre de serveurs, le processus allait être assez long mais aurait dû se finir dans la nuit de vendredi à samedi...sauf que le filer utilisé a commencé à avoir les mêmes symptômes que le filer 13, de même pour les suivants. En fonction de l'attitude du fournisseur concerné dans les jours à venir, nous n'excluons aucune hypothèse vu le préjudice occasionné par leur matériel défectueux.
- Après plusieures heures pour préparer en urgence de nouveaux filers d'autres fournisseurs, le processus de reconstruction a repris dimanche soir pour se finir pour 90% des gens mardi matin. Nous avons ensuite passé une journée à traiter manuellement les 10% restants, et à calmer les effets de bord, notamment sur le mail qui a souffert (mais la situation est revenue à la normale). Pour GandiMail, de gros moyens sont en cours de déploiement pour assurer une qualité de service irréprochable.
- Aujourd'hui, tous les serveurs du filer 13 ont été reconstruits et les clients qui avaient commandé un serveur depuis jeudi soir ont été servis.
Dédommagements :
- Les clients impactés par le filer 13 et la perte de leur données sont en train d'être remboursés intégralement de l'ensemble des sommes déboursées sur leur compte prépayé. Nous sommes en beta, mais nous sommes intransigeants.
- Nous avons prolongé de 5 jours la validité des parts de tous les clients bloqués entre jeudi et lundi.
Les mesures en cours :
- Le changement d'architecture pour fournir l'hébergement haute disponibilité promis lors du lancement de l'offre avait été décidé avant même le crash du filer 13. En effet, si une machine sur laquelle votre serveur est hébergée tombe en panne, l'incident est déjà transparent pour vous, si un disque (ou 2) ne fonctionne(nt) plus, le RAID 6 fait que l'incident était lui aussi sans effet pour le client. Nous voulions que la perte totale d'un filer le soit aussi. L'architecture de stockage est donc en cours de modification. La version finale de l'offre n'arrivera que quand cela sera effectif.
- Un système de backup, vous assurant que vos données sauvegardées ne sont pas dans la même salle que vos disques principaux, est également en préparation. Les salles sont soit déjà finies, soit en cours de finalisation.
- Nous sommes en discussion avec le fournisseur des filers défectueux (et je leur souhaite de bien saisir la gravité de la situation) et d'autres fournisseurs pour prendre les mesures qui s'imposent.
Je tiens ici à témoigner mes remerciements à tous les clients qui, malgré les pannes sur un produit technologique avancé et en beta (il faut toujours le rappeler), ont toujours affiché un soutient positif et indispensable.
Je tiens également à dire à mon équipe que je suis fier de travailler avec eux. Ce qu'ils ont fait est admirable. Ce qu'ils continueront de faire l'est tout autant. Merci.















Commentaires
Merci à toute l'équipe pour le travail effectué.
Quelle transparence !
C'est très appréciable d'être aussi bien informé.
Je n'ai pas été impacté et n'ait donc pas eu à m'énerver devant des sites en vrac mais je trouve vraiment que l'explication et les promesses prévoient un superbe hebergement ..
Bravo Gandi !
Il y a une semaine, mes nom de domaine et données ont été transférés chez Gandi, mais malheureusement mon ancien hébergeur a résilié mon compte comme prévu juste 1 jour avant le crash. J'ai donc perdu toutes mes données, vu que la partition du disque dur où j'avais une backup avait pris un sacré coup.
Heureusement qu'il ne s'agissait que de données personnelles (je n'aurais jamais fait appel à un service en bêta pour une entreprise), mais ça me rend fou que ça soit tombé juste le "jour d'après" la résiliation de l'ancien hébergeur, qui disposait encore de mes fichiers jusqu'avant que tout ne s'évanouisse.
Soit... J'apprécie énormément Gandi et je ne vous en veux pas une seconde. Vous non plus, n'avez pas eu de chance... En tout cas, mes félicitations pour le professionnalisme et la disponibilité dont vous avez fait preuve! Continuez dans ce sens... Et si vous arrivez à, vous aussi, être dignement dédommagés, peut-être pourriez-vous penser aux t-shirts, comme quelques clients l'ont évoqué...
Bonne journée,
Nico.
Bravo à vous pour votre franchise, votre ouverture, votre disponibilité et votre sincérité.
Maintenant.... on veut le nom du fournisseur de “qualitay”, car je suis sûr qu'une telle publicité lui fera énormément plaisir.
Bonjour,
merci pour ces nouvelles informations.
Je suis un client du filer 13, J'ai été content et surpris de la transparence. Je vous en félicite et continuez dans cette voie. Pour ma part, vous avez toute ma confiance. Au vu de la gestion de cette crise il ne peut en être autrement. Très bonne circulation de l'information, combien d'hébergeurs peuvent se vanter d'avoir donné des informations en temps réels ? De même le traitement des problème au cas par cas avec votre équipe, est, j'en suis sûr très appréciée.
Merci
Cordialement
Julien CLERC
Cela veut il dire que l'on peut proceder de nouveau à l'ajout de nouvelles parts ? La création de serveurs etait bloquée jusque la si j'ai bien suivi.
Les clients dont le service n'a pas été normal reçoivent souvent un tee shirt sans avoir rien demandé, notre manière d'essayer de vous faire retrouver le sourire :D
En ce qui concerne le fournisseur (et ses partenaires) qui nous a causé ces soucis, je lui souhaite de bien réagir par rapport à nos demandes en cours. Il aura sinon toute la publicité qu'il est en droit d'avoir, et nous avons demandé à nos conseils de préparer un dossier pour prise de décision. Ce n'est pas notre genre, mais il y a des limites à tout.
Bravo pour la gestion de la crise, et la transparence. Cela me confirme pourquoi j'ai choisi d'être chez Gandi Bravo aussi pour avoir su constituer (reprendre et augmenter ..) une telle communautés de clients soudés autour de leur fournisseur, surtout pendant les heures difficiles.. j'envie
Par contre, le flot des explications techniques, notamment des plus pointus d'entre nous m'ont fait un peu peur quand à mon intention de vous confier de l'hébergement: faut-il vraiment s'y connaître autant que cela, et être un brillant pingouin.. ou pas ?
J'ai bien vu vos screen casts de démo de Gandi Ai, et autre.. mais j'avoue qu'un petit recadrage me sera profitable. D'autres amateurs ?
Bravo pour la communication et votre professionnalisme.
J'ai été touché par un effet de bord plutôt désagréable (48h d'indisponibilité pour un de mes serveurs) avec une vingtaine de clients dans l'expectative (oui, le béta blablabla)...
Ayant un peu bossé dans le milieu de la maintenance info, je sais par expérience qu'une bonne gestion des crises passe par une excellente communication.
On peut (presque?) tout pardonner à une entreprise qui prends soin d'informer ses clients des aléas qu'elle rencontre.
Bref... longue vie à Gandi ! J'espère que cette expérience va amener encore plus de fiabilité dans cette offre d'hébergement sur le point d'être finalisée
> Les salles sont déjà soient finies, soit finalisées.
C'est quoi la différence entre finies et finalisées ?
@ NiKo: je me posais la même question
Oui, je vous rassure, les solutions sur lesquelles nous travaillons vont en ce sens : renforcer au maximum la fiabilité et la mise en parallèle.
Merci à tous pour votre travail.
Et la communication qui l'a accompagné.
Des vrais Jedi !
Bravo pour la com, la transparence, le gros boulot effectué par les admins
/me s'en va remonter son disque :D
Bon courage pour la suite. Et MERCI pour votre travail
Encore merci pour votre transparence ! Enfin je suis content car la gestion de crise à été exemplaire. C'est surtout qu'après être passé chez certains hebergement c'était pas top et là cela plante mais au moins nous sommes tenus au courant.
Merci pour la communication continue.
Vu la mésaventure, j'ai espoir que votre offre n'en sera que plus solide.
En attendant, mes sites hébergés chez Gandi sont bien de retour: http://news.profoss.eu et la newsletter http://www.Profoss.eu/about/contact
Raph
Action réaction, et franchise avec tout ça, je suis sur d'avoir fait le bon choix de travailler avec vous.
Je pense que bêta ou pas bêta, nous aurons encore des problèmes, ce qui me semble normal néanmoins on attend une réaction à la hauteur du problème qui peut se poser.
je pense que sur ce point je suis agréablement surpris.
Bravo à toute l'équipe
Mon IP est 92.243.13.121
J'étais sur le filer 13
Mon serveur est reparti mais je ne peux plus me connecter en ssh comme en sftp.
Que dois-je faire ?
Vous avez un accès de secours via la console que vous pouvez activer sur votre fiche serveur. Probablement un fsck à effectuer sur votre disque système.
J'ai essayé d'activer la console sur ma part (92.243.2.32), mais je n'arrive pas au dela du message "Connected", je n'obtiens pas de prompt...
Y-a-t-il une doc de la console quelque part ?
Voilà un petit PDF pour vous remercier :
http://punishment.librelogiciel.com...
les pannes peuvent survenir meme sur du materiel de tres haute performance. et quand cela survient, l'information ne doit pas etre économisée. je n'ai pas l'habitude d'intervenir dans les fils de discussion, mais je dois tout de meme remercier et feliciter gandi pour son serieux, son sens de la communication, son souci constant de respect envers ses clients, et je vous fait grace du reste. meme si nos serveurs ont ete indisponibles pendant plusieurs jours, on est tout de meme ravi d'etre, non pas chez gandi, mais avec gandi.
MAirssi HenquauR Ai daisholé pourR l'Aurhtocraf...
Merci Gandi !!!
J'ai été remboursé car j'étais sur le "filer dont on ne doit pas dire le nom parce que ça porte malheur", étant un client récent de Gandi je trouve ce geste commercial tout a fait sympathique et humble et ô combien rare de nos jours...
Du coup j'ai transféré mon domaine chez vous, je sens que c'est une longue histoire qui débute entre Gandi et moi...
Encore bravo pour votre professionalisme, votre façon de communiquer et même si il y a eu de gros désordres techniques, on peut se dire que si tous les commerçants et prestataires de services étaient comme vous, notre société serait un peu moins aigrie... et chapeau au gens qui ont passé des nuits en salle machine...
Et beh ! Quelle histoire...
J'ai constate la remise en route du mien dans la nuit de mardi a mercredi.
Vous aviez fait expres de l'appeler Filer 13 :p ?
Au fait : MERCI !!!!
Qu'est-ce que c'est bon quand tout remarche.
Bonjour,
J'ai du mal a dire merci dans la mesure où j'ai perdu toutes les données de mes sites vu que je n'ai pas obtenu de solution satisfaisante de la part de Gandi pour faire les backups efficacement.
J'ai plusieurs sites Web sur mon serveur Gandi. Chaque site est édité par différents utilisateurs qui disposent d'un compte sur le serveur. Dans mon organisation, les backups de chaque site sont sous la responsabilité des éditeurs. Or, seul "admin" peut accéder par FTP aux répertoires des sites Web.
Prévoyez-vous une solution pour que chaque compte du serveur puisse avoir accès à une partie de l'arborescence, dont des répertoires Web ?
Bonjour,
Tout d'abord, bravo et merci pour la transparence dont vous avez fait preuve pendant cet incident.
Mais (ben oui il y a un mais), si en dehors de quelques ralentissements je n'ai pas été impacté, j'essaie sans succès depuis lundi de me connecter via ssh à mon serveur (92.243.1.98): "persmission denied(publickey, password)"
Je précise que je suis sur de mon mot de passe, je l'ai modifié via la console de récupération...
Une idée ??
Nouveau client de Gandi, je suis très agréablement surpris par la transparence dont vous faites preuve (ce n'était pas le fort de mon ancien hébergeur) .
Après tout, il ne faudrait pas oublier que c'est une version béta.
Encore bravo.
WF-180: on s'occupe de vous
Bravo pour la transparence, dommage qu'elle n'aille pas aussi loin qu'on aurait pu l'imaginer (mais j'imagine que c'est pour des raisons légales) : je suis toujours curieux de connaître le constructeur/distributeur des filers qui ont causés tout ce bordel...
Je n'ai été impacté que sur les mails, galère mais bon, étant admin et ayant déjà été confrontés à des pbs du même type je comprends le taf fourni.
Merci pour vos explications, votre franchise et merci aux admins qui ont du bien en baver et s'énerver.
Ma confiance vous est renouvelée et je vous ramènerai d'autres clients.
PS
Ma confiance n'est pas renouvelée envers votre fournisseur, si vous avez besoin d'un coup de main pour leur faire de la pub, c no problemo...
Bonjour,
"Epilogue" le terme paraît optimiste car le feuilleton continu : mes deux sites inacessibles wwww.artank.fr et www.art-griculture.com depuis ce matin au moment crucial d'une présentation ce jeudi 22 mai
"Serveurs surchargés" dit Gandi?
Quelqu'un rencontre-t-il le même pb d'impossibilité de se connecter ce 22 mai?
Bonsoir,
Peux t'on connaître la marque des disques durs fautifs ??
l'indication de l'état "smart" de ces disques donnaient quoi ??
Macintosh'ment vôtre
Merci à tout le staff Gandi pour leur professionnalisme et la transparence de la crise, rares sont les hébergeurs dignes de ce nom gérant un incident d'une telle ampleur avec autant d'efficacité et de respect commercial.
Comme quoi, même si ce n'est qu'une phase Bêta, cela n'empêche pas de considérer ses clients, la preuve en est faite.
Chapeau bas.
Bonjour,
Je ne vois pas mon commentaire précédent signalant l'inaccessibilité de mes sites : http://www.artank.fr et art-griculture.com.
Le problème de "serveurs surchargés" a-t-il un rapport avec l'inaccessibilité des sites?
Quelqu'un d'autre rencontre-t-il le même problème?
Bonjour,
Nous venons d'arriver chez Gandi pour le nom de domaine RDM Editions (rdm-editions.com) et nous avons de gros problèmes de réception. En ce qui me concerne, je ne reçois par d'e-mails aujourd'hui (remi.reibel@rdm-editions.com), 3 seulement hier et mon assistante très épisodiquement (marion.bosset@rdm-editions.com). Nous avons impérativement besoin d'avoir une réception d'informations rapidement en espérant qu'ils soient stockés sur le serveur.
Merci de votre réponse et bonne fin de journée.
Cordialement,
Rémi REIBEL
RDM EDITIONS SAS
Ci-joint une adresse valide pour réponse.
remi.rdm@live.fr
Merci,
Rémi REIBEL
RDM EDITIONS SAS
Bonjour,
Mon site est inaccessible depuis dimanche soir, après moult mail envoyés au service client (sans réponse) rien n'a changé. Que faut-il faire pour que mon problème soit pris en compte ?
Ip du serveur : 92.243.2.133
Merci
Bonjour,
Comment ça se passe pour le remboursement ? Je ne vois toujours rien dans la console malgrès que mon serveur soit up depuis mardi.
Merci en tout cas pour votre boulot et les infos en continu durant l'incident !
Merci pour le remboursement et les informations suite au crash. Je suis arrivé depuis peu sur Gandi hébergement et je trouve que c'est tout simplement génial.
"Les clients impactés par le filer 13 et la perte de leur données sont en train d'être remboursés intégralement de l'ensemble des sommes déboursées sur leur compte prépayé. Nous sommes en beta, mais nous sommes intransigeants."
Certes, mais répondez à cette question : pensez-vous que la perte d'exploitation du à une telle panne puisse être réparée avec le simple remboursement (plus que normal !) du prix de l'hébergement ???!!!
Vous pourriez me répondre qu'étant en stage béta, il ne faut pas mettre de site en prod, oula la la, c'est pas bien. Mais si vos serveurs n'hébergent, dans leur phase béta, que des sites perso qui font 5 visites/jour, comment voulez-vous avoir la moindre idée d'une situation réaliste ?
Bref, entre GandiMail et l'hébergement, c'est toujours la cata.
De plus, je me répète, vous ne proposez rien permettant le backup de GandiMail. Or vous venez de prouver que même avec votre joli RAID6, tout peut partir en vrille.
Bon courage quoi qu'il en soit mais essayez de faire évoluer votre solution un peu plus rapidement (console rescue, ip supp, ip fail over, certif ssl sur mail, service de backup).
Bien que l'argumentaire de "Ben" soit correct dans la logique, je trouve que cette offre, même beta, est d'une bonne qualité. Et surtout le service associé par Gandi concernant la communication et la gestion de crise est extrêmement rassurant. Biensûr une fois en phase de production on attendra tous, je pense, une réativité maximale!!! ( bien que j'ai trouvé que la réactivité sur cet incident était déjà de très bonne qualité! )
Enfin c'est une beta , en mettant un site de production nous prenons tous un risque. Je l'ai pris moi même pour une opération marketing de 15 jours mettant à l'(épreuve le serveur et l'offre et je n'ai pas été déçu .
Bref merci de votre transparence, de votre communication, et bon courage pour la mise en oeuvre de la sécurisation vos serveurs. Je ne suis ni admin réseau ni expert en sécurité des réseaux mais j'ai travaillé pendant 5 ans pour une banque et souvent fait des études de sécurité aux niveaux de nos salles serveurs , je sais donc les problèmes que cela pose, le temps que cela prend et l'implication que doivent avoir les équipes de production.
enfin bravo à l'équipe Gandi pour cette offre d'hébergement, et pour leur gestion de crise .
J'attends avec impatience de voir l'offre en version production ( et surtout son prix )
Pour moi le seul point noir est Gandi mail , en effet il semblerait qu'il arrive souvent que des emails n'arrivent pas à destination ... cela m'a couté un client ... c'est dommage mais je reste tout de même confiant quant à l'évolution de ce service .
Je retenterai dans 6mois sur un autre projet .
Ben: Beta c'est beta. Si votre application est critique pour votre société, on vous conseille d'attendre la version finale sinon, nous hébergeons déjà des gros sites et ça fonctionne très bien. Le remboursement et nos excuses étaient la moindre des choses, mais comme précisé lors de la communication, le problème technique est impardonnable en soit et n'est pas du fait de la Beta. La version finale palliera à la perte complète d'un volume group.
La Console rescue est en production, les autres produits cités arriveront probablement après la version finale.
Gandimail est suivi de très près depuis le dernier problème de charge (causé par un énorme spam), la plateforme réagit plutôt bien à nos derniers changements. La non réception de certains mails concerne souvent la redirection, certains ISP ont la gachette un peu rapide pour nous blacklister (je rappelle qu'on gère entre 15 et 20 millions de mail par jour).
Bonsoir Nicolas,
et pour le commentaire 33, peux tu répondre ??
Merci d'avance
Macintosh'ment votre
Nicolas : quelle application n'est pas importante pour son propriétaire ? C'est vrai, moi je m'amuse pour l'instant avec ma part : j'ai testé ispconfig, je teste divers solutions de surveillance... mais qu'est-ce que signifie "critique" ? On se doute bien que le Crédit Agricole ne va pas mettre son site sur vos serveurs ! Donc, a priori, tous vos clients ont des sites critiques, à leur niveau. Et une partie de ceux-là rapportent peut-être de l'argent (où en font perdre s'ils ne fonctionnent pas). Tout ça pour dire qu'une version beta ne devrait déjà, en aucun cas, être payante !
Pour la version finale, on ne connait toujours ni la date (vous préférez repousser pour être bien prêt, ok, mais le serez-vous un jour ?!), ni le prix.
Quant à GandiMail, ce n'est pas votre problème de charge qui m'ennuie le plus, mais bien cette approche non professionnelle de cette plateforme. A moins que ce soit un choix de la destiner aux particuliers (ce qui engendre encore plus de problèmes à mon avis). Il n'est pas sérieux de proposer à un client un compte mail dont on ne peut avoir de backup ! Et le certificat ssl, c'est nécessaire en webmail (je sais, il exsite, mais signé GandiMail).
Je ne comprends pas bien la question sur le backup de GandiMail. GandiMail offre un accès Imap. Donc n'importe quel lecteur IMAP du genre Offlineimap (http://software.complete.org/softwa...) fait l'affaire non ?
Je reviens sur mon commentaire 31 : je suis toujours curieux de connaître le constructeur/distributeur des filers qui ont causés tout ce bordel...
Pour ton propre compte, pas de problème (d'où mon "A moins que ce soit un choix de la destiner aux particuliers") mais tu configures une boite mail GandiMail à tes clients, employés, colab, etc. ; ils changent leur mot de passe (grâce à la pertinente option rajoutée par Gandi sur @mail) -> tu ne peux plus backuper leur compte puisque tu ne disposes plus du mot de passe (et ce n'est pas à eux de s'occuper de ça !).
Encore des problèmes avec mon VPS (92.243.13.42). Accès SSH impossible à plusieurs reprises ce jour...
Client depuis plus de 6 mois de VPSLink, je n'y ai jamais rencontré le moindre problème.
L'hébergement beta, c'est vraiment pour les clients beta.
Bonjour Bernard. Nous avons eu quelques coupures réseau (suite à un flood, apparemment), qui ont rendu inaccessibles une partie des serveurs. Les coupures n'ont duré que quelques minutes, et à l'heure actuelle, votre serveur semble répondre normalement.
Désolés
Apparemment le mien est en rade, depuis 19h07 et 33 secondes, merci Nagios.
Voyant cela j'ai immédiatement tenté d'activer la console, et bien... j'attends toujours.
Quelqu'un peut me tenir au courant (adresse IP 92.243.13.115).
D'autre part quand ça marche il y a de gros problèmes de contention au niveau des IO disque, lors d'opérations bases de données (genre 'VACUUM FULL ANALYZE;' dans PostgreSQL) la machine virtuelle reste en était "wait" pendant des plombes. J'envisage éventuellement de découper mon espace disque (20 Go, 15+5) en 20 parts de 1 Go créées à des moments différents histoire d'atterir peut être sur des filers et/ou disques différents, et de faire un RAID0 logiciel du tout (de toute façon le système sous-jacent est en RAID6). Cela améliorerait il la situation ou bien n'est-ce même pas la peine d'essayer ? La situation au niveau disque s'améliorera t'elle en version finale ? pour info mes filesystems xfs sont montés en "logbufs=8,noatime,nodiratime" ce qui devrait pourtant normalement éviter pas mal d'accès...
Merci d'éclairer ma lanterne.
Mon serveur 92.243.13.115 est reparti. D'après les logs vous l'aviez arrêté à 19h04, je suppose que vous venez de le redémarrer...
Par contre l'activation de la console est toujours "inactive" avec "opération en cours..." ça va faire une heure. Un autre souci ?
Et pour mes autres questions ci-dessus, si vous avez 5 minutes à y consacrer...
mon serveur est toujours inaccessible....
news.profoss.eu
Depuis hier.....
Bonjour. Jalet, nous avons eu hier après-midi deux problèmes. Le premier a pu conduire au redémarrage de certains serveurs et nous a obligés à bloquer temporairement les opérations, dont la demande d'accès console. Le deuxième était un problème réseau. Pour ce qui est des lenteurs disques, nous réfléchissons à l'amélioration de l'accès disque. J'espère bien que les disques seront plus rapides en version finale.
rb, que dit la console? Vu d'ici, ça ressemble à une machine surchargée, peut-être écrasée sous le swap.
laura, merci pour le retour.
le serveur etait ok dans l'interface web.
je l'ai redémarré -> systeme de fichier en lecture seule. Apache voulais pas démarrer.
je re-redémarre -> plus rien....
Raph
et pas de nouvelle du support
c'est relancé, apres plusieurs reboot, des acces refusés à la console, un fsck manuel, etc Tout a coup ca marche. Tant mieux....
Laura (Gandi) : merci pour les infos