J’ai travaillé sur des environnements Oracle en production pendant plusieurs années, y compris sur des environnements très critiques. J’ai rencontré des problèmes matériels sur des serveurs, sur des SAN, sur des switchs. J’ai vécu plusieurs corruptions sur NFS ou dues à des bugs Oracle. J’ai également vécu coupures d’électricité, inondations (y compris au 4e étage) et déclenchements intempestifs des sécurités incendies.
Quoiqu’il en soit et malgré tout, il est évident que la première cause d’indisponibilité est, et de loin, l’erreur humaine. Préparés ou non… avec les meilleurs experts du monde, les changements voulus ou accidentels sont l’ennemi #1 de la disponibilité des systèmes. Ma récente expérience ne peut que confirmer ce que je vous dis et pourtant, je n’y suis pour rien.
Et bien (en réponse aux incrédules!) croyez-le ou non, il est possible de combattre les erreurs humaines… certes avec des technologies comme les snapshots, les standby ou les technologies de flashback mais surtout avec un peu de méthode, beaucoup de bon sens et de la rigueur. Parmi ces trucs qui vous permettent d’augmenter la disponibilité de vos systèmes, on peut citer par exemple :
- La prudence et la tempérance (vertus cardinales)
- Les tests systématiques des sauvegardes et plans de reprise
- La formalisation et la validation des changements
- La ségrégation des accès
- L’analyse et gestion spécifique des risques associés aux changements
- La mise en place d’une gestion et d’un suivi des changements
- L’élaboration de plans de retour arrière
Dans ce domaine, petits et grands, y compris moi-même, ont encore beaucoup à apprendre. Il y a quelques années, j’ai découvert sous d’autres cieux, une solution qui permet, d’enregistrer ce qui se passe sur vos systèmes à travers la mise en place de passerelles dont l’utilisation est conservée. Cette solution, Observe-IT est la seule que j’ai trouvée encore aujourd’hui pour ce type d’approche.
Si vous êtes un adepte des caméras dans les lycées, vous apprécierez d’en mettre également au bureau. Quoique qu’éthiquement très discutable, cela permet d’expliquer la cause de certains problèmes et de les prévenir. Vous apprécierez… ou pas ! Reste que si je n’étais pas complètement foiré, je mettrais un peu d’argent dans une société comme celle-là.
Et vous, comment combattez-vous les erreurs humaines ?