Nous devons souvent conseiller nos clients sur le choix du support H+4 ou J+1 pour leur serveur. En théorie un support H+4 permet d’obtenir un matériel de remplacement en moins de 4h 24h/24, alors qu’un support J+1 permet de déclarer l’incident uniquement en heures ouvrées (du lundi au vendredi de 9h à 18h) et de l’obtenir 1 jour ouvré après.
Pour aider à cette décision, je vous propose de profiter d’un incident traité la nuit dernière par notre équipe de sysadmins. Il s’agit d’un soucis classique avec un disque défectueux sur un serveur DELL PowerEdge en support H+4. Voici l’historique précis de l’incident :
Mardi 14 juin 23h45 : le controleur RAID du serveur nous remonte une alerte : un disque OFFLINE.
Mardi 14 juin 23h50 : notre sysadmin d’astreinte intervient sur le serveur pour vérifier l’alerte. Une fois confirmée, il reste à collecter les différentes informations nécessaires à l’appel au support (numéros du serveur, logs à transmettre au technicien, etc.)
Mercredi 15 juin 00h05 : appel au support DELL. Vu que l’on est en heures non ouvrées, on passe donc par le support 24/24. À bien noter que le support 24/24 est exclusivement en anglais (si vous comptez faire intervenir une personne ne parlant pas la langue de Shakespeare, c’est raté). La conversation avec le technicien DELL peut être longue car selon son humeur il va demander de lui envoyer par mail le résultat de certaines commandes, chercher lui-même dans sa base de connaissances, etc. Le délai est clairement variable à cette étape. De notre côté, l’appel a duré 52 minutes !
Mercredi 15 juin 01h00 : départ en urgence pour le datacenter, le technicien DELL exigeant une vérification visuelle du disque et de ses numéros de série.
Mercredi 15 juin 01h20 : arrivée au datacenter, il faut maintenant passer tous les accès, sortir le disque concerné et envoyer un email de confirmation au technicien DELL.
Mercredi 15 juin 01h30 : l’email “final” est envoyé à DELL.
Mercredi 15 juin 02h00 : sans confirmation par mail ou téléphone, une relance par mail est faite.
Mercredi 15 juin 02h20 : le technicien DELL rappelle pour confirmer qu’il vient de prendre en compte l’email. Tout lui parait OK, il lance donc la procédure de remplacement du disque défectueux.
Mercredi 15 juin 03h00 : on reçoit un email de DELL nous donnant une estimation d’arrivée du disque pour 05h00… on ignore cependant si c’est GMT+1 (comme pour notre interlocuteur chez DELL) ou bien GMT+2
Mercredi 15 juin 05h01 : on reçoit bien le disque par “Taxi Colis”. Je vous fais grâce de la suite des opérations, pas très intéressantes pour illustrer le sujet.
En conclusion, environ 5h entre le début de l’incident et la réception du matériel, soit un peu plus de 4h entre l’appel au support DELL et la réception du disque. Dans un cas général, les constructeurs respectent donc pratiquement leur engagement H+4… mais il ne faut pas négliger le temps nécessaire à analyser le problème avec le support (de quelques minutes à plusieurs heures selon l’incident matériel) et le plus important : s’assurer d’avoir une bonne infogérance 24/24 ! Sachant qu’un support H+4 coûte quelques centaines d’euros supplémentaires à l’achat, qu’il est possible en complément (ou à la place !) d’avoir une partie du matériel en spare… ou même un 2e serveur (ou plus) qui pourra prendre le relai à chaud ou en secours… vous avez presque tous les éléments en main : à vous de choisir !
Tags: dell, infogerance, support
Bonjour,
quels outils de supervision utilisez-vous pour le 24/24 ?
Principalement des serveurs Nagios avec des envois de SMS. Après il y a du log2mail, du logcheck, du smokeping, plein d’outils-maison, etc.
Merci pour la réponse !