Test des procédures dégradées : que tester et jusqu’où ?
18 jan. 2022 - 10:12,
Tribune
- Cédric CartauEn termes techniques, c’est ce qu’on appelle un PCA-PRA : plan de continuité d’activité et plan de reprise d’activité. On ne va pas s’écharper sur les nuances entre ces deux notions, j’en connais au moins trois définitions différentes et de toute manière la question n’est pas là. Un PCA-PRA est juste fait pour anticiper les deux questions suivantes et y répondre : on fait quoi pour éviter que tout pète, et on fera quoi quand tout aura pété ?
En gros, vous avez donc deux « moments » : les mesures préventives et les mesures correctives, et deux types de livrables : le technique et l’organisationnel. Quelle que soit la définition que vous retenez d’un PCA-PRA, tout le monde s’accorde à dire que ce n’est pas que de la technique, il ne s’agit pas juste de doubler le matos, mais il faut aussi réfléchir à des éléments souvent très bêtes – c’est toujours bête les pannes – tels que le plan de repli des informaticiens (si le datacenter est sous l’eau, ils vont bosser où ?), les badges d’accès (c’est ballot de se retrouver bloqué à la porte de la DSI alors qu’un malware est en train de vous manger toutes vos données) et j’en passe.
Tout PCA-PRA qui se respecte doit donc comporter a minima :
- une liste de procédures techniques de bascule du SI sur un site de secours, incluant les procédures de restauration des données ;
- un plan de communication ;
- un plan de repli de la DSI ;
- un plan de secours de la téléphonie ;
- un plan de secours des impressions (oui, vous avez bien lu) ;
- une cellule de crise organisée avec les numéros de téléphone de rappel, l’organigramme, les rôles de chacun, un découpage tactique/opérationnel, etc. ;
- des moyens techniques et logistiques : salle de crise, cartes d’accès aux locaux, PC portables avec accès 4G, imprimantes, fax, etc. ;
- un plan juridique ;
- un plan de repli de certains services utilisateurs ;
- et les fameuses procédures dégradées métiers, qui sont le pendant côté MOA de ce que les procédures techniques susnommées sont à la DSI.
Globalement, un dispositif de PCA-PRA doit faire face à deux difficultés – en plus du fait qu’avant la panne personne n’en voit l’intérêt, demandez juste autour de vous qui a déjà changé une roue de voiture si vous voulez vous poiler deux minutes :
- l’articulation avec les autres plans de crise de l’établissement : SSE (situations sanitaires exceptionnelles), plan blanc, plan Amavi, etc. ; la crise IT n’est qu’une situation de crise parmi d’autres, même si depuis 2015 et l’apparition des ransomwares son importance l’a remise au-dessus de la pile ;
- la question cruciale des procédures organisationnelles : cellule de crise, rappel des informaticiens, et surtout les procédures dégradées.
Autant tester une cellule de crise est aisé : rappel téléphonique impromptu, test des moyens techniques (cartes d’accès aux locaux, PC portables, accès 4G, etc.), autant c’est une autre paire de manches pour les procédures dégradées utilisateurs, par exemple le DPI. On prévient d’abord ou pas ? On les met en place le week-end ou en semaine ? On reste en double saisie (le DPI fonctionne toujours, mais on fait « comme si » avec des ramettes de papier) ou on coupe vraiment ? On coupe tout ou juste certains modules ? On coupe aussi les interfaces ou pas ? On fait comment avec les partenaires extérieurs qui ont soit un accès au DPI, soit reçoivent en temps réel des informations issues du DPI : EFS, partenaires médicaux, etc. ? On coupe combien de temps : 5 minutes ou 8 heures ? On traite comment le retour à la normale du métier, ce qui en termes techniques s’appelle le WRT ou Work Recovery Time (pour certains métiers, le WRT est tellement long qu’en cas de suspicion de panne ils préfèrent passer des jours entiers en procédure dégradée plutôt que de devoir gérer plusieurs cycles panne/fonctionnement normal) ?
Bref, si à peu près tout le monde s’accorde à dire que non seulement l’existence de procédures dégradées est nécessaire, mais qu’il faut en plus les tester, en disant cela en fait on n’a pas dit grand-chose. Le scénario de test retenu ne constitue rien d’autre qu’une situation réelle donnée (en plus ou moins réaliste), et le plus drôle est que le pépin, quand il surviendra, ne correspondra évidemment pas à ce scénario initialement choisi (j’ai un truc « qui fait crac boum hue » dans ma mallette de RSSI, un modèle à percussion centrale de marque Deming, je vous en reparlerai à l’occasion).
Bref, tout un champ d’étude en perspective, rien que du bonheur pour les RSSI…