Quel est le rôle d’un ingénieur d’exploitation informatique ?

Chaque entreprise possède sa propre interprétation du métier. Les tâches associées seront alors définies par les processus techniques, les technologies et les outils utilisés. Chaque mission proposée avec le même intitulé pourra avoir un cadre complétement différent et il faudra toujours découvrir et acquérir la culture d’entreprise.

Cependant on peut noter que la principale fonction de l’ingénieur d’exploitation informatique est de mettre en place et maintenir les systèmes d’information des entreprises selon les procédures préexistantes ou à (re)définir.

Quelles sont les actions les plus courantes d’un ingénieur d’exploitation ?

Les différentes tâches gérées par l’ingénieur d’exploitation informatique peuvent se classer en deux catégories communément qualifiées par « buildtorun » et « run ».

Les missions « Buildtorun »

« Build » ou « Buildtorun » regroupe toutes les actions permettant d’intégrer un outil dans la chaine de production en accord avec les standards de l’entreprise.

Il s’agit généralement de s’occuper de :

On s’intéresse aussi à l’aspect documentaire en veillant à avoir à minima un schéma d’architecture et d’exploitation aux normes en vigueur, une documentation d’installation et une documentation d’exploitation.

La documentation d’installation produite par le développeur / l’éditeur n’est généralement pas suffisante car elle ne tient pas compte des éléments extérieurs : annuaire d’entreprise, chaine de certification TLS, firewall et tous les éléments propres à l’entreprise qui peuvent avoir des impacts non négligeables sur le fonctionnement. La documentation d’exploitation doit décrire les actions usuelles à faire pendant le régime courant, la première d’entre elle étant la procédure de relance.

Les missions « Run »

Le « Run » traite des tâches permettant son bon fonctionnement durant sa durée de vie. Généralement il s’agit d’actions planifiées comme les montées de version ou subies comme les pannes.

On pourrait considérer qu’il s’agit de suivre ce qui est écrit dans la documentation d’exploitation mais l’usage montre que dans la plupart des cas, ce n’est pas le cas. Si cela est vrai lors d’actions de mise à niveau, le règlement de panne relève toujours d’une vérification du problème signalé et d’un examen approfondi des traces applicatives pour comprendre quel élément interne ou externe provoque le dysfonctionnement.

Quelles sont les compétences et qualités nécessaires pour ce poste ?

L’ingénieur d’exploitation n’est pas forcément un spécialiste technique, l’expérience est donc un facteur de succès important. En effet, ce rôle requiert d’avoir plusieurs casquettes :

Les activités de build et celles de run ne vont pas mettre en œuvre les mêmes compétences.

Le build nécessite de comprendre comment intégrer techniquement un nouvel élément dans le système souvent déjà complexe du client sans le perturber et tout en assurant la mise à disposition pérenne des nouvelles fonctionnalités que cet élément apporte. Il faut plutôt connaitre les règles et normes en vigueur, les technologies utilisées et leurs implications pour mesurer ce qui est réutilisable, ce qui est à adapter et ce qui est à construire.

Selon l’organisation interne, le niveau d’automatisation et la segmentation des tâches représente un travail qui peut mettre à rude épreuve la patience et la ténacité. La connaissance des processus permet généralement de se construire un réseau interne qui permet d’identifier l’interlocuteur adéquat. L’ingénieur d’exploitation informatique peut être amené à prendre des décisions selon les situations ce qui demande parfois des qualités relationnelles ainsi qu’un certain degré de persuasion.

Le run implique une grande rigueur intellectuelle et de la méthode lors de la réalisation des actions d’exploitation. Les actions planifiées sont généralement connues et répétées sur des environnements « hors production ». Lorsqu’il s’agit de traiter une panne ou une défaillance, il faut savoir être pragmatique quand quelque chose de critique ne fonctionne pas. Il peut arriver d’hériter d’une situation délicate avec de la documentation incomplète voire inexistante. Il faut donc savoir faire preuve d’adaptation, (et même de créativité) mais là encore le schéma de pensée est généralement connu : comment traduire les symptômes décrits en « effet informatique », qui sont les « autres sachants utiles », que dit le système en panne.

Dans tous les cas, il faut savoir communiquer car souvent la résolution n’est pas l’œuvre d’une seule personne mais un travail commun. Toute résolution fait normalement l’objet d’un retour d’expérience où un travail de synthèse et de vulgarisation technique selon le niveau de l’auditoire va être nécessaire.