Migrer systématiquement vers le dernier Patch Set ?

Cette semaine, en fait depuis vendredi dernier 2 heures 54 du matin, j’ai vécu, au travail, la semaine la plus intense depuis des mois ou même des années ! Et quand je dis je, je devrais dire une bonne partie des équipes de The Pythian Group que vous connaissez sûrement et tout ça à cause de l’équipe à laquelle j’appartiens ; pour ne pas dire moi 😉

Avant d’aller plus loin, voici quelques explications sur le groupe ;

Nous sommes une cinquantaine de DBA, essentiellement Oracle, dans une moindre mesure MySQL ou SQL*Server. Nous travaillons depuis le monde entier, c’est à dire Canada, UK, Autralie, Indes et bientôt Roumanie, pour des clients dans le monde entier. 😉 J’aime bien Boston et la Californie ! Nous sommes organisés en clusters et chaque équipe de 3 à 5 DBA gère généralement des environnements de base de données de clients d’horizon très divers, la plupart du temps, en soutien à leurs propres DBA, en particulier quand ce sont de grandes sociétés. Pour la petite histoire et pour illustrer l’intérêt d’équipes comme la nôtre, le « cluster » auquel j’appartiens est constitué de 3 personnes situées toutes à Ottawa. Nous gérons, parmi d’autres environnements, celui d’une société située en Indes. C’est, à peu prêt, l’inverse de tout ce qui se fait en ce moment, non ? D’ailleurs, j’aimerais bien avoir un client en France, même pour 16 heures par mois, histoire de montrer aux collègues qu’en France aussi, on fait des trucs intéressants. Si vous avez des idées laissez un commentaire, je ne le publierai pas.

Là je suis à 10,000 km de l’objectif de ce post !

Nous sommes 3 dans l’équipe dans laquelle je travaille et nous gérons, entre autre 7 clusters RAC dont 4 en production et 1 en standby. Nos productions ont respectivement 2, 4 (depuis 5 jours !), 7 et 10 nœuds ; et tous sont en 10.2.0.2 ; nous y arrivons !

La semaine dernière, donc au menu, le démarrage de la saison NFL (un énorme choc pour le cluster 10 noeuds), supprimer et ajouter un nœud au cluster 7 nœuds et passer un cluster de 2 nœuds à 4 nœuds et le résultat (en moins de 7 jours), ça a été :

  • 1 bug qui génère des ORA-600 et fait crasher des connexions
  • 1 bug qui empêche PMON d’informer les listeners comme il faut et le loadbalancing serveur mal fait
  • 1 bug qui bloque les nouvelles sessions, génère des ORA-3135 pour les nouvelles sessions et « crash » une instance
  • 1 bug qui oblige à arrêter le cluster complet pour réactiver les flashback log
  • 1 bug sur le FAL dans le cas de RAC avec un nombre de nœud différents de la standby
  • 1 SR sévérité 1
  • 1 SR sévérité 2 et une sévérité 4
  • 3 crashs d’instances

Et tous les correctifs sont dans 10.2.0.3 ! Alors bien sur, il y a aussi les impondérables que nous n’aurions peut-être pas évité :

  • Plusieurs erreurs dans le design comme celle qu’explique Christo ici.
  • 2 pannes matérielles

Et pourtant (1) nous avions toutes les bonnes préconisations 3 mois mais qui ça intéresse de passer du temps et de l’argent à migrer en 10.2.0.3 ou à modifier des séquences et le code de l’application ? (2) Le support Oracle n’a rejeté aucune de mes SR malgré le niveau de version ; ils sont même en ce moment en train d’étudier la possibilité de back porter un one-off pour une de nos bases de données que pour des raisons indépendantes de notre volonté et de celle du client, on ne peut vraiment pas mettre à jour en 10.2.0.3.

Tout ça est très positif pour moi ; 5,6 jours à récupérer après cette semaine de fou et, avec aucune véritable erreur (On peut toujours être plus rapide ! mais je m’en sors vraiment bien), de nombreux points d’expérience de toutes part. Si cette nuit est comme la dernière on pourra dire qu’on s’en est sorti avec les honneurs…

En même temps, j’ai vraiment des scrupules quand je me dis que tout ça aurait pu être évité ; j’imagine que c’est la dernière fois qu’on laisse traîner un Patch Set aussi longtemps chez ces 2 clients.

Alors voilà, ça ne reste que mon opinion, si vous avez une base de données que vous utilisez jusqu’à certaines limites et sans vous précipiter le lendemain de la sortie du Patch Set… Rester en ligne ne vous fera peut-être pas gagner des millions de dollars mais nous aurait évité bien des ennuis… Qu’est-ce que vous en pensez ?

Au fait, ça y est ; première installation de 11g sur le développement d’un nouveau projet la semaine prochaine. Dommage que ce ne soit pas dans mon cluster. Enfin, on ne peut pas tout avoir !

6 réflexions sur “Migrer systématiquement vers le dernier Patch Set ?”

  1. En effet… Je connais un autre Igor R. Il est Canadien et le fait qu’il parle français m’a troublé mais ce n’était pas impossible 😉

    Merci pour tes commentaires et pour tes 2 centimes 😉 ! Au fond c’est pour que les gens réagissent que j’écris ce blog !

  2. Bonsoir,
    oui, il semble que tu m’as confondu avec quelqu’un autre.
    Dans les environments que je vois – le dernier patchset est seulement là ou c’est necessaire.
    Je suppose que on n’est pas d’accord ici et – c’est OK.
    C’est comme toujours, compromis entre plusieurs choses.
    Question: combien de choses tu tests après le patch (même avec des choses automatises – ça prend du temps !)
    D’autre côté je comprend que ta situation est en peu differente,
    et que les choses sont toujours plus sensible quand tu touche des choses en peu moins utilisées.

    Ce sont seulement mes 0.02

    Je trouve bon ton blog et j’espère que ça va continuer.

    IR

  3. Qu’il faut et qu’ils font 10 choses à la fois !

    après vérification… Tu n’es sans doute ni furtif, ni celui que j’imaginais ou alors tu es plus fort que ma matrices. Anyway… C’est pas une heures pour laisser des commentaires quand on est dans ce fuseau horaires la !

  4. 2 choses me surprennent :
    ————————-
    * Tu ne laisses pas de trace (je sais faire !)
    * Tu parles français (Es-tu bien le Igor R. que j’imagine ?)

    Quoiqu’il en soit :
    ——————-
    * Oui ça m’est arrivé 2 fois sur la base de données de découvrir un bug non référencé par Oracle; heureusement jamais quelque chose que tu ne peux pas contourner et toujours reproductible !

    * après ça arrive aussi qu’un jour une instance explose et que ça arrive tellement peu souvent et que tu sois tellement dans une vieille version que tu laisses tomber la SR après qu’on t’ai demander de placer un event pour tracer toutes les allocations de mémoire

    * Enfin, quand ta base de données commence à refuser des connexions et que l’environnement est censé être 24×7… La, moi, je réfléchis tout haut avec le support Oracle qui suit ce qu’il peut et en général, ils sont assez bons à ce jeu là. Le seul reproche que je peux leur faire, c’est que t’as toujours l’impression qu’il faut 10 choses en même temps.

    Enfin la question c’est plutôt : « Est-ce que t’arrives à avoir des environnements alignés sur les derniers Patch Set ? ».

  5. Bonjour,
    C’est juste une partie des choses.
    On a eu l’experience d’entrer dans des endroits inconnus et les situations comme « we don’t have any bug registered about it yet ».
    Au final, on pratique laisser se « crystalyser » en peu.

    Tu n’a pas pu faire la même chose dans France (pour même « team ») ?

    IR

Les commentaires sont fermés.