Une méthodologie est nécessaire pour rendre les données du Big Data structurées et utiles Comment mettre en œuvre les Big Data?

Auteur / Rédacteur: Florian Nemeti et Xavier Comtesse / Jean-René Gonthier

Sixième volet sur le thème générique de la Manufacture 4.0. Une série réalisée conjointement par Florian Németi, économiste, Directeur de la Chambre neuchâteloise de Commerce et de l'Industrie et Xavier Comtesse, mathématicien et animateur du PNR Manufacture 4.0.

Entreprises liées

Big Data un secteur encore vierge où tout est à faire...
Big Data un secteur encore vierge où tout est à faire...
(Source: IBM)

Aujourd'hui dans les entreprises, le statut des données semble être ébranlé par l'explosion du Big Data. Pour certains, la puissance des algorithmes et leur capacité prédictive relèguent le statisticien au rang d'interprète des corrélations livrées par la machine. La tentation du «tout prospectif» est forte et l'enthousiasme technologique conduit à annoncer un peu rapidement la fin de la théorie économique classique et de sa méthode statistique qui lui est liée. 

Au contraire, nous pensons que l'émergence massive des données non-structurées doit être interprétée à côté de celles plus classiques qui remplissent actuellement nos bases de données. Les informations, sous la forme de données structurées dans le domaine financier, comptable, logistique, de stockages produits, de connaissances clients, etc. ne vont pas disparaître. En fait, le Big Data n'est qu'un ajout de nouvelles données sur la base de données existantes. Les entreprises vont juste devoir maîtriser un flux intense et dans certains cas très important de données nouvelles, non-structurées et peu utilisables sans un traitement conséquent.

Galerie d'images

C'est le propre des Big Data...travailler sur des données non-structurées pour les rendre utilisables...donc structurées!

Pour tirer pleinement profit des possibilités du Big Data, les entreprises encore souvent novices sur la question devront remplir trois conditions : s'approprier le raisonnement statistique spécifique fondé sur la collecte des données non-structurées pour en établir les conditions de validité (1); ne pas renoncer à chercher des modèles explicatifs pour donner un contexte aux corrélations tirées des algorithmes prédictives (2); définir des sujets d'études (case studies) et des concepts spécifiques aux Data Science (3).

Cela suppose pour les entreprises de construire leur nouveau cadre de données et de considérer l'empire des « traces numériques » produites par les individus, les produits ou encore les relations entre acteurs économiques, etc. comme autant de données de connaissance nouvelle propre à être des leviers de croissance du futur.

«Les Big Data sont autant des cartes de données à déchiffrer que des territoires de croissance à défricher»

Mise en œuvre

Lorsqu'un chef d'entreprise ou un cadre supérieur décide de faire du Big Data, il doit avoir une idée claire du processus de mise en œuvre à exécuter.

Voici une marche à suivre issue de la pratique:

Il y a grosso modo 7 étapes à respecter. Cela va de poser la bonne question, à explorer les données en passant par la mise en forme de ces dernières jusqu'à l'analyse critique des résultats. Regardons cela dans le détail:

Etape 1 Définir un sujet d'étude, c'est-à-dire poser la bonne question pour laquelle on va explorer des réponses. En fait, les données notamment les non-structurée ne contiennent pas de manière transparente, réponses à tout. Il faut savoir ce que l'on cherche pour trouver de bonnes réponses, comme toujours. Donc les Big Data ne sont pas un sorte de «boules de cristal»...il y a du travail à accomplir...et la première étape est de savoir ce que l'on cherche! Par exemple, de quoi parlent les clients sur les réseaux sociaux à propos d'un de nos produits spécifiques...ce n'est donc pas d'un sondage d'opinion qu'il s'agit...mais bien de repérer juste des mots clés dans leurs conversations et qui pourraient exprimer leurs sentiments, leurs envies, leurs attentes, leurs choix, etc.

Etape 2 Collecter les données, c'est-à-dire chercher dans des univers conversationnels les données non-structurées nécessaires à l'étude de cas. Ce travail n'est pas toujours évident car la plupart des entreprises n'ont jamais cherché à collecter des informations non-structurées. Les outils du Big Data sont là pour aider...mais il faut aussi beaucoup de bon sens et d'astuces pour savoir où chercher les données...Exemple: Facebook, Twitter sont des champs d'exploration pour des algorithmes appelés «bots» qui vont parcourir les pages Internet à la recherche de mots clés associés aux clients. Le retour d'information sera des occurrences de liens donc de sens.

Etape 3 Nettoyer les données! Même si l'on parle de donnée non-structurée, il faut commencer tout de même à les mettre en «forme» par exemple en les agrégeant. Les données vont subir plusieurs «nettoyages» avant d'être réellement utilisables... évidemment ce faisant, on va réduire la portée «signifiante»... c'est pourquoi cette phase est délicate : trop réduite et elle ne vont plus rien signifier et pas assez, elles seront inutilisables. En fait, cette phase correspond à transformer des données dites non-structurées en des données un «peu» structurées...ou quasi structurées voir totalement structurées! Exemple: les mots clés de notre cas précédent deviennent des nombres représentant les occurrences de ceux-ci dans les textes collectés sur les réseaux sociaux. La variation des occurrences nous entraînera dans l'analyse prédictive du «data mining».

Etape 4 Stocker les données! Maintenant que celles-ci sont en quelque sorte plus présentables... on va pouvoir les stocker... ici vu l'importance des volumes...on va les mettre sur le cloud dans des «datawarehouse» sorte de hangar à données... ou encore appelé des «datalake». Bref, avant même de pouvoir les traiter, il va falloir les mettre en fichier et les stocker... cette phase rend évidemment les données déjà beaucoup plus présentables...puisqu'elles seront à la fois formatées et étiquetées (indexées) pour les retrouver bien sûr... Dans notre exemple: on va stocker un table de liens entre mots clés et clients avec les occurrences comme valeur numérique à traiter dans le modèle prédictif.

Etape 5 Utiliser les outils du Big Data. Aujourd'hui plusieurs entreprises des ICT offrent des environnements informatiques comme par exemple celui de «Hadoop» (le plus utilisé) offrant aux utilisateurs notamment les data scientists, toute une palette d'outils propres à extraire du contenu. C'est la phase de traitement proprement dite...elle va donner du sens aux données. Dans notre exemple précédent, elle va exprimer par un nombre les occurrences des liens pour donner du signifiant...si par exemple les occurrences augmentent subitement, c'est le signe qu'il se passe quelque chose... si le lien est une chose positive par exemple, un soudain enthousiasme pour un produit, cela donnera une idée précise des achats potentiels. Dans le cas contraire, le système pourra aussi détecter une mauvaise nouvelle qui nécessitera une intervention rapide: une correction de la communication produit par exemple.

Etape 6 Analyser les résultats. Ici c'est de nouveau l'affaire du patron. L'analyse des résultats doit revenir aux dirigeants. Mettre en perspective critique les résultats du Big Data est une chose évidente. Les données ne donnent que rarement des corrélations ou des conclusions. Il faut savoir interpréter et surtout avoir un regard critique et beaucoup d'expertise. C'est une tâche pour la Direction. Les Big Data sont au service des dirigeants...pas le contraire ... car même une conclusion juste, peut amener une décision fausse si elle est hors contexte! Voilà le temps de la réflexion et de la décision... moment crucial qui entraîne des choix! Dans notre exemple, il va falloir comprendre d'abord si les clients sont contents ou mécontents et comment interpréter ceci en terme d'achat ou pas. L'acte d'achat n'est pas toujours lié à une bonne notoriété... il faut créer encore souvent l'opportunité d'achat.

Etape 7 Transformer en standard l'application. Si l'ensemble du processus a bien fonctionné, il faut encore normaliser le tout et en faire une routine car le Big Data doit un jour faire partie du «dashboard» de tout entrepreneurs. C'est l'Excel de demain. Un environnement dédié à la prédiction. Si Excel donnait la possibilité de faire des projections (modélisation du passé pour faire des scénarii d'avenir) alors le Big Data permettra de faire de l'anticipation (modéliser le futur pour prendre de bonnes décisions aujourd'hui).

Le Big Data est l'arme de la gestion prédictive qui manquait encore... il va falloir la maîtriser maintenant.

En conclusion: penser la mise en oeuvre est l'affaire du chef. L'exécuter sera celle du «data scientist»...mais l'analyse des résultats sera à nouveau sous la responsabilité du patron. Les Big Data sont stratégiquement trop importantes à la conduite des affaires mais aussi comme futurs «leviers de croissance» pour le confier à quiconque. C'est l'instrument de décision clé pour l'avenir. Alors bien sûr en attendant une sorte d'Excel pour dirigeant les Big Data doivent être maîtrisées par un ou des spécialistes. Il faudra donc convertir dans chaque entreprise des informaticiens, des comptables ou des statisticiens à cette tâche. Même-ci cela paraît évident aujourd'hui que l'on fasse appelle à des «intégrateurs» de métiers comme Swisscom, IBM, Oracle ou les entreprises de services informatiques pour accompagner le processus de mise en oeuvre. Un jour les compétences devront être internes: Trop stratégique pour laisser filer les Big Data. MSM

(ID:44123789)