L’art du Data Scientist réside dans la préparation des données à fournir aux algorithmes de Machine Learning. Cette préparation essentielle est fortement liée au métier à modéliser : le décortiquer et le comprendre est tout l’enjeu d’un usage intelligent des données.

Si vous êtes familier des reportings et des analyses de données, vous manipulez des tableaux et dans des cas simples vous alimentez peut être vos réunions grâce à des Tableaux Croisés Dynamiques (TCD) faits sous excel. Ces TCD vous les faites à la main, selon vos intuitions et connaissances métiers, à partir de quelques dizaines de colonnes que vous maîtrisez.
Le rôle du Data Scientist est de comprendre votre métier, et d’intégrer de nouvelles colonnes à votre tableau, de manière à mieux cerner le contexte d’exécution du processus analysé. Il est ainsi fréquent de se retrouver avec quelques centaines de colonnes descriptives dans les tableaux, il devient alors difficile de choisir la bonne approche et les bons TCD qui fourniront une analyse pertinente : on se noie dans la data.
C’est ici que les algorithmes viennent en renfort : ils permettent d’analyser automatiquement des centaines de colonnes de données pour déterminer lesquelles sont les plus intéressantes pour analyser le processus étudié. Dans un cas simple on pourrait dire qu’ils nous orientent sur les colonnes (et leur ordre) à mettre dans notre TCD pour notre prochaine réunion.

Le Data Scientist ne vous apportera aucune réponse s’il ne comprend pas vos métiers.

Prenons l’exemple d’un dirigeant de réseau d’agences d’Interim pour qui nous avons étudié la “performance” de ses agences. Une fois la définition du mot “performance” établie (ce qui a nécessité pas moins de 3 réunions de co-dir), il nous restait à modéliser cette performance. Jusqu’ici, l’entreprise prenait en compte quelques facteurs financiers et de relation clients dans des réunions hebdomadaires. Notre travail de data-scientists nous a conduit à aller beaucoup plus loin et à intégrer des données jamais étudiées jusqu’ici par les équipes internes : dimension des agences, nombre de places de parking, relevés de téléphone (logs de PABX), distance des clients, ancienneté des équipes, calendrier et rendez vous , utilisation de la tablette commerciale, géolocalisation des agences concurrentes (enseigne, spécialité), taux de chômage local…. Toutes ces informations forment de nouvelles colonnes qui permettent de contextualiser la performance de chacune des agences.

Nous avons ensuite donné ce tableau augmenté à un algorithme (Random Forest puis XGBoost en l’occurence) qui a donné une note d’importance à chacune des colonnes, ainsi qu’aux combinaisons de colonnes. Cette note nous a permis de diriger nos recherches dans la compréhension de ce qui se passe pour chaque dimension, et de diriger l’affinage de notre analyse en étroite collaboration avec les experts métier. Nous avons alors pu donner des recommandations opérationnelles : optimisation et répartition du temps de travail, nombre de clients à gérer par employé, distance maximale des clients… Ainsi nous avons revu les “best practices” qui étaient usuellement données lors des formations collaborateurs, nous avons pu objectiver un certains nombre d’à priori, et faire émerger des comportements d’équipes inconnus de la direction générale.

On le voit, l’alimentation de l’algorithme par des données pertinentes est bien plus importante que la compréhension des formules mathématiques qui le sous-tendent.
L’apprentissage du métier client est avant tout celui du Data Scientist avant d’être confié à une machine.