Manque de personnel: Les données sont disponible en grand nombre mais où sont les cerveaux capables de les traiter convenablement ?

Data Scientists: des cerveaux trop rares!

| Rédacteur: Jean-René Gonthier

Un nuage qui envahit le monde et englobe tous les domaines touchés par l'humain.
Galerie: 3 photos
Un nuage qui envahit le monde et englobe tous les domaines touchés par l'humain. (Image: bisqin.com)

Troisième article d'une série sur le thème générique de la MANUFACTURE 4.0 et concoctée conjointement par Xavier Comtesse, mathématicien et informaticien et Florian Németi, économiste, Directeur de la Chambre neuchâteloise de Commerce et de l'Industrie. Ici il s'agit des Data Scientists, une race à part de surhomme faisant cruellement défaut en Suisse.

La révolution actuelle du digital se caractérise par l'importance des données et leur maîtrise par les «Data Scientists». En Suisse, et notamment dans l'industrie, ils font massivement défaut! On peut estimer le manque à 20'000 Data Scientist (cette estimation est basée sur une évaluation d'IBM pour les USA et une transposition pour la Suisse).

Essayons de bien comprendre l'enjeu !

Une courte introduction à la problématique va rapidement nous éclairer:

«Quelles soient structurées ou non, les données deviennent une grosse composante de toutes entités économiques, non seulement parce qu'elles sont créées en très grand nombre mais surtout parce que l'on dispose aujourd'hui d'outils permettant d'effectuer des analyses signifiantes en termes de qualités prédictives. En quelque sorte, les données commencent à "parler" et de plus, elles sont récoltées en grand nombre et sont devenues significatives.

Pour bien saisir ce phénomène, il est nécessaire de s'attarder quelques peu sur deux éléments forts qui ont fait changer notre rapport aux données: les "Big Data" et le "Data Analytic"».

Collecter des données souvent non-structurées et analyser celles-ci le plus vite possible (en temps réel par exemple), voilà les deux premiers enjeux pour toute entreprise. Le but est d’augmenter la compétitivité, d’améliorer la performance, de maintenir le positionnement ou encore d’accroître le capital de la marque. L’enjeu de la collecte et de l’analyse de données concerne toutes les fonctions (R&D, production, marketing, logistique) de l’entreprise et toutes les parties prenantes (clients, fournisseurs, personnel, actionnaires).

Afin de mieux comprendre l’apport du Data Scientist, commençons par définir sommairement son métier, qui apporte à l’entreprise des informations impossibles à obtenir par une autre voie. Il s’agit de :

  • Recueillir un maximum de données à partir d’Internet, d’applications multimédias ou encore de smartphones ;
  • Croiser et comparer les types de données et les moyens de stockage ;
  • Structurer, étudier, évaluer, regrouper et synthétiser les données ;
  • Proposer ensuite des solutions commerciales, marketing, financières, etc. aux différents départements.

Une nouvelle profession d'avenir est née

Le Data Scientist occupe ainsi un nouveau territoire hybride se situant à la frontière entre l’analyse statistique, la programmation et le management !

Il y a quelques années encore, le traitement massif de données non-structurées était l’apanage des géants américains du web. Mais depuis peu, il existe plusieurs plateformes software, dont certaines en open source comme Hadoop, à disposition et donc à peu près toutes les entreprises même les PME peuvent y faire appel.

Aujourd'hui la technologie est disponible, ce qui manque ce sont les Data Scientist pour l’exploiter dans les entreprises.

Prenons un exemple souvent relaté sur Internet pour bien illustrer ce propos :

«Il y a quelques années UPS, une grande entreprise postale américaine a mené une vaste étude visant à optimiser le trajet de ses véhicules de livraison, un enjeu de taille pour un transporteur qui fait rouler quotidiennement des dizaines de milliers de véhicules. D’innombrables paramètres ont été pris en compte et analysés de manière classique à savoir par des données structurées. L’étude a révélé que certains trajets, en tous points comparables à d’autres, s’avéraient systématiquement plus économiques et plus rapides sans que l’on comprenne au juste pourquoi. Le mystère fut éclairci le jour où des data scientist se sont rendus compte que les trajets économiques coïncidaient avec ceux qui minimisaient le nombre des virages à gauche ! En effet, chaque virage à gauche nécessite de croiser le trafic venant de face et donc, il y avait un temps d’attente forcément plus long que le fait de tourner vers la droite (priorité). Ainsi les moteurs consommaient du carburant en tournant au ralenti pendant les attentes. En calculant des parcours favorisant le plus possible les bifurcations vers la droite et pour la seule année 2011, cela permis d’économiser 30 millions de dollars en dépenses de carburant à l'entreprise.»

Cet exemple montre deux caractéristiques essentielles de l’activité du Data Scientist :

«Un Data Scientist doit maîtriser le traitement des données (Note 1) et aussi posséder une connaissance approfondie des métiers (Note 2) sur lesquels il intervient.»

Le data scientist n'est pas un statisticien

Le Data Scientist cherche à mettre en évidence des caractéristiques à des phénomènes identifiés, ce qui n’est pas le cas du statisticien qui cherche des nombres en posant des questions précises. Pour ce dernier, toute réponse est chiffrable et il s’efforce de comprendre plus que de mesurer. La tâche d’un Data Scientist sera nettement plus créative, au-delà du simple emploi de modèles existants : imaginer de nouveaux modèles sur la base de sa connaissance-métier du secteur dans lequel il travaille.

Le Data Scientist travaille sur d’autres bases que le statisticien. Ce dernier opère avec des échantillons constitués de données structurées et scrupuleusement sélectionnées. A l’inverse, un Data Scientist travaillera avec des quantités massives de données non-structurées et non-nettoyées. En recourant aux techniques de "data analytic" qui révèlent des propriétés inconnues dans un jeu de données ou à celles de "machine learning" qui visent à prédire des comportements futurs sur la base de comportements connus.

Le statisticien cherche traditionnellement une aide à la décision à l’aide des données structurées d’une entreprise. Le Data Scientist tentera d'exploiter des données non-structurées situées en partie hors de l’entreprise. Son objectif est de reconnaître des schémas de comportements récurrents, d’améliorer les services ou d’identifier de nouveaux clients.

Enfin, et c’est une propriété souvent mise en évidence sur le Web, l’un des aspects les plus significatifs peut-être du profil d’un bon Data Scientist est sans aucun doute «son éveil vers l'innovation disruptive semblable à celui d’un chercheur ou d’un hacker».

La formation existe déjà

La demande pour ces profils est en forte croissance et les Hautes Ecoles en Suisse commencent à proposer des cursus très intéressants et totalement dédiés à cette branche naissante.

L'Université de Neuchâtel possède un centre tout comme l'EPFL et les HES de Fribourg et de Genève. La machine pour former les futurs Data Scientist est en marche.

Il faudra cependant du temps pour pourvoir à la demande des entreprises. car les informaticiens ou les programmeurs ne suffiront certainement pas pour produire les éléments de Big Data, Data Analytic, Machine Learning ou de Data Mining.

Les Data Scientists seront dans l'ère industrielle 4.0, les cerveaux indispensables à faire tourner les usines!

On l'a bien compris, les personnes qui réuniront les deux facettes du Data Scientist idéal seront à la fois compétentes en programmation ou en modélisation mathématique et en économie d'entreprise. Ces personnes font aujourd'hui figure de perles rares.

En attendant la sortie des Hautes Ecoles des futurs jeunes Data Scientist, il faut miser sur les aptitudes à l’auto-formation (notamment les cours MOOC - voir définition ci-dessous - décernés par les grandes Universités américaines ou européennes) et repérer des profils techniques ou scientifiques pointus qui peuvent s’investir dans un secteur pionnier où l’imagination et la créativité sont si importants.

L’acronyme MOOC signifie « Massive Open Online Course » que l’on peut traduire par « cours en ligne ouvert et massif ».

Et à propos des MOOC voici la définition donnée par l'Université de Genève(http://moocs.unige.ch/presentation/).

Qu'est-ce qu'un MOOC?

Il s’agit donc :

  • De cours et non pas de conférences ou de reportages. Ces cours sont d’un niveau universitaire.
  • De cours diffusés sur internet.
  • De cours gratuits et libre d’accès. Aucun prérequis n’est exigé de la part des participants. De plus, l’inscription sur les différentes plateformes de MOOCs est entièrement gratuite. Seule la délivrance de certificats (facultatifs) est payante. Cela ne signifie pas pour autant que le contenu délivré sur ces plateformes soit libre de droit. D’une manière générale, il ne peut être ni réutilisé, ni rediffusé sans le consentement de leurs auteurs.
  • De cours massifs. Le nombre d'inscrits par cours peut varier de quelques milliers à plus de 100'000 participants. Néanmoins, tous les étudiants n’ont pas forcément l’intention de suivre l'enseignement du début jusqu'à la fin, et seule un petite proportion d’étudiants est véritablement active.

Une « Spécialisation » est, sur la plateforme Coursera, un ensemble de 3 MOOCs ou plus sur une thématique commune. Les participants ayant validés l’ensemble des MOOCs de la Spécialisation doivent ensuite valider un projet transversal à la thématique, appelé « capstone project ».

La structure décrite ci-dessous fait spécifiquement référence à l'organisation des cours sur la plate-forme Coursera.

Les 3 composantes d’un MOOC : 

1.- Des leçons en vidéo

2.- Des devoirs et exercices d’évaluation

3.- Des outils d’interactions avec et entre les étudiants

Durée de formation: entre 4 et 12 semaines.

La publication des leçons est planifiée le dimanche soir ou le lundi matin. Le rendu des exercices d’évaluation est généralement prévu pour le dimanche suivant. Les étudiants sont ainsi libres d'étudier le contenu du cours quand ils le souhaitent dans la semaine, tout en étant tenus de respecter un rythme de travail hebdomadaire, lequel  favorise du même coup le suivi et les échanges entre étudiants. <<

Auteurs: Xavier Comtesse, mathématicien et informaticien et Florian Németi, économiste.

Autres informations sur le même thème

Premier article de la série Manufacture 4.0

L’âge de l'économie digitale

Manufacture 4.0, l'avenir est en marche

L’âge de l'économie digitale

11/01/16 - >> Premier article d'une série sur le thème générique de la Manufacture 4.0 et concoctée conjointement par Xavier Comtesse, mathématicien et informaticien et Florian Németi, économiste, Directeur de la Chambre neuchâteloise de Commerce et de l'Industrie. Robot/bot, download/upload, différé/streaming, venture/crowdfunding, Start-up/Net-up, classes sociales/réseaux sociaux, médias/médias sociaux, économie/économie directe ou partagée, data base/big data, stock/flux, mémoire/cloud, statistique/datamining ou data analytics, algorithmes/machine learning, gouvernance/data-driven-gouvernance, sous-traitance/sur-traitance, consommateur/consom'acteur, diagnostic/quantified-self...etc. lire...

Deuxième article de la série Manufacture 4.0

Manufacture 4.0 : Le pouvoir des données

Le Big Data une activité indissociable du concept Manufacture 4.0,... l'avenir est en marche

Manufacture 4.0 : Le pouvoir des données

08/02/16 - >> Deuxième article d'une série sur le thème générique de la MANUFACTURE 4.0 et concoctée conjointement par Xavier Comtesse, mathématicien et informaticien et Florian Németi, économiste, Directeur de la Chambre neuchâteloise de Commerce et de l'Industrie. Ici il s'agit du sujet sensible de la récolte des données et du traitement de celles-ci. lire...

C'est quoi les Big Data?

Ajouter un commentaire

copyright

Ce texte est protégé par les droits d'auteur. Si vous désirez l'utiliser pour des besoins personnels veuillez consulter les conditions suivantes sur www.mycontentfactory.de (ID: 43911042 / Tendances)