La démarche dite de « valorisation des données » suggère bien de commencer par travailler avec ce qu’on a. Une démarche frugale et pragmatique nécessaire avant d’envisager de se disperser dans des acquisitions de sources externes ou de création de données ad hoc.

Années 90 : internet se développe. La navigation web impose des transactions client /serveur pour afficher des contenus. Les logs de navigation s’entassent.
De nos jours : un service client traite quotidiennement des milliers d’appels et de mails. Il faut orienter le contact vers la bonne personne. À minima elle est ou sera bientôt disponible, mieux elle est compétente.

Tous les processus génèrent de la donnée. Le plus souvent cette donnée est produite pour un bénéfice immédiat : afficher un contenu, répondre à un client, cibler une action.
La donnée ainsi créée a quasi systématiquement droit à une seconde et très courte vie, celle d’alimenter des reportings ou autre dashboard. Il faut montrer qu’on a bien travaillé ! Puis la donnée dort, sédimente par strate.
Jusqu’à récemment seules quelques données star étaient exploitées lors d’une 3e vie, pour éclairer des décisions, plutôt stratégiques : données de vente, données comptables… souvent en version agrégée.

Les premières données à notre disposition sont les déchets de nos process opérationnels.

Aujourd’hui, les projets Data des entreprises appliquent la théorie économique de la longue traîne aux données : plutôt que d’extraire de la valeur uniquement de quelques données dont l’intérêt est immédiat, la démarche est à présent de presser globalement des masses de données qui, prises séparément, auraient eu un intérêt limité. Un projet data a donc une utilisation extensive des données disponibles. Il crée rarement des données sur mesure, comme le font par exemple les enquêtes de satisfaction client. Par exemple exploiter le logs web, associées à d’autres sources, pour comprendre les comportements de navigation, achat.

Cette exploitation extensive est possible grâce à l’essor de l’apprentissage automatique, ou machine learning. Il ne s’agit pas nécessairement de « Big » Data. La variété des sources est plus importante que le volume des données. Les data-scientists apprennent souvent avec des bases de données frêles (base des passagers du Titanic, base des variétés d’Iris …). Le volume n’est pas le sujet.

La mise en commun de données d’origines différentes (commerciales, réseau, production, marché, RH, ..) n’est possible qu’au niveau granulaire, c’est à dire au niveau où elle a été produite : tel jour, tel client a acheté tel produit dans tel magasin à tel vendeur avec tel autre produit… Chaque maillon porte avec lui de nombreux éléments de contexte : un produit de la nouvelle collection, un vendeur récemment embauché, un magasin avec des caractéristiques spécifiques…

Pour faire quoi ?
Identifier par exemple le ou les déclencheurs de ce moment magique où un client achète un de nos produits, ou pourquoi il ne l’achète pas. Pourquoi certains vendeurs démissionnent plus vite que d’autres, pourquoi certains produits ont une durée de vie plus courte… Derrière ces questions il doit toujours y avoir des décisions opérationnelles très concrètes : quel client cibler, avec quel produit, quel commercial fidéliser en priorité, comment ajuster le dispositif commercial… Bref optimiser ses ressources : temps, budget, image …

Exploiter ces données présente donc les attributs proche d’une démarche éco-responsable à deux titres :

  • réutiliser un patrimoine stocké inutilisé : vos données,
  • réaliser grâce à ce patrimoine une allocation plus rationnelle des ressources de l’entreprise : on ne peut pas contacter tous les clients, faire des promotions tout le temps, fidéliser tout le réseau…

Cette vision “développement durable” est à nuancer avec le coût énergétique du stockage et du calcul. Retenons que plus on se sert de ses données et mieux on identifie celles qui n’ont pas d’utilité. Une approche rationnelle de la puissance de calcul est aussi possible : vouloir utiliser « toutes » les données disponibles est souvent plus grisant qu’utile.

La phase suivante de valorisation de la donnée nous fait toutefois quitter ce paradigme “écologique”. Aujourd’hui ce ne sont pas les logs web qui sont analysés mais les tags : des données produites dans le seuil but d’éclairer les comportements. Après la phase de valorisation des ressources data disponibles vient celui de la production consciente et planifiée de données nouvelles, conçues spécifiquement pour être analysées.

Plus de recyclage donc, mais toujours une ambition éco responsable !