Le principe de Pareto, également connu sous le nom de règle 80-20, affirme que 80% des conséquences proviennent de 20% des causes, ce qui rend le reste beaucoup moins impactant.
Ceux qui travaillent avec des données ont peut-être entendu une interprétation différente de la règle 80-20 : un data scientist passe 80 % de son temps au travail à nettoyer des données désordonnées plutôt qu’à effectuer une analyse réelle ou à générer des informations. Imaginez un trajet de 30 minutes prolongé à deux heures et demie par les embouteillages, et vous aurez une idée.
Aussi tentant que cela puisse être de penser à un avenir où il existe un modèle d’apprentissage automatique pour chaque processus métier, nous n’avons pas besoin d’aller aussi loin pour le moment.
Alors que la plupart des data scientists passent plus de 20 % de leur temps au travail sur l’analyse réelle, ils doivent encore perdre d’innombrables heures à transformer une mine de données désordonnées en un ensemble de données bien rangé prêt à être analysé. Ce processus peut inclure la suppression des données en double, s’assurer que toutes les entrées sont correctement formatées et effectuer d’autres travaux préparatoires.
En moyenne, cette étape du workflow prend environ 45% du temps total, un récent Anaconda enquête trouvé. Un plus tôt sondage par CrowdFlower met l’estimation à 60%, et bien d’autres enquêtes citer des chiffres dans cette fourchette.
Rien de tout cela ne veut dire que la préparation des données n’est pas importante. « Garbage in, garbage out » est une règle bien connue dans les cercles informatiques, et elle s’applique également à la science des données. Dans le meilleur des cas, le script renverra simplement une erreur, avertissant qu’il ne peut pas calculer la dépense moyenne par client, car l’entrée pour le client n°1527 est formatée en texte et non en chiffre. Dans le pire des cas, l’entreprise agira sur la base d’informations qui n’ont pas grand-chose à voir avec la réalité.
La vraie question à se poser ici est de savoir si reformater les données du client n°1527 est vraiment la meilleure façon d’utiliser le temps d’un expert bien rémunéré. Le data scientist moyen est payé entre 95 000 $ et 120 000 $ par an, selon diverses estimations. Faire en sorte que l’employé sur un tel salaire se concentre sur des tâches abrutissantes et non spécialisées est une perte de temps et d’argent pour l’entreprise. En outre, les données du monde réel ont une durée de vie, et si un ensemble de données pour un projet urgent prend trop de temps à collecter et à traiter, il peut être obsolète avant toute analyse.
De plus, les quêtes de données des entreprises incluent souvent la perte de temps du personnel non axé sur les données, les employés étant invités à aider à récupérer ou à produire des données au lieu de travailler sur leurs responsabilités habituelles. Plus de la moitié des données collectées par les entreprises n’est souvent pas utilisé du tout, suggérant que le temps de toutes les personnes impliquées dans la collecte a été gaspillé pour ne produire que des retards opérationnels et les pertes associées.
Les données qui ont été collectées, en revanche, ne sont souvent utilisées que par une équipe de science des données désignée qui est trop surchargée de travail pour passer en revue tout ce qui est disponible.
Tout pour les données, et des données pour tous
Les problèmes décrits ici jouent tous sur le fait qu’à l’exception des pionniers des données comme Google et Facebook, les entreprises sont toujours en train de se couvrir la tête autour de la façon de se réinventer pour l’ère des données. Les données sont extraites dans d’énormes bases de données et les data scientists se retrouvent avec beaucoup de nettoyage à faire, tandis que d’autres, dont le temps a été perdu à aider à récupérer les données, n’en profitent pas trop souvent.
La vérité est que nous sommes encore en avance en ce qui concerne la transformation des données. Le succès des géants de la technologie qui placent les données au cœur de leurs modèles économiques a déclenché une étincelle qui ne fait que commencer à décoller. Et même si les résultats sont mélangé pour l’instant, c’est un signe que les entreprises n’ont pas encore maîtrisé la réflexion avec les données.
Les données ont une grande valeur et les entreprises en sont très conscientes, comme en témoigne l’appétit pour les experts en IA dans les entreprises non technologiques. Les entreprises doivent simplement faire les choses correctement, et l’une des tâches clés à cet égard est de commencer à se concentrer sur les personnes autant que nous le faisons sur les IA.
Les données peuvent améliorer les opérations de pratiquement n’importe quel composant au sein de la structure organisationnelle de n’importe quelle entreprise. Aussi tentant que cela puisse être de penser à un avenir où il existe un modèle d’apprentissage automatique pour chaque processus métier, nous n’avons pas besoin d’aller aussi loin pour le moment. L’objectif de toute entreprise cherchant à exploiter des données aujourd’hui consiste à les faire passer d’un point A à un point B. Le point A est la partie du flux de travail où les données sont collectées, et le point B est la personne qui a besoin de ces données pour la prise de décision. .
Il est important de noter que le point B n’a pas besoin d’être un scientifique des données. Il peut s’agir d’un responsable essayant de déterminer la conception optimale du flux de travail, d’un ingénieur à la recherche de défauts dans un processus de fabrication ou d’un concepteur d’interface utilisateur effectuant des tests A/B sur une fonctionnalité spécifique. Toutes ces personnes doivent disposer à tout moment des données dont elles ont besoin, prêtes à être traitées pour obtenir des informations.
Les gens peuvent prospérer avec les données aussi bien que les modèles, surtout si l’entreprise y investit et s’assure de les doter de compétences d’analyse de base. Dans cette approche, l’accessibilité doit être le maître mot.
Les sceptiques peuvent prétendre que les mégadonnées ne sont rien d’autre qu’un mot à la mode surutilisé pour l’entreprise, mais les capacités d’analyse avancées peuvent améliorer les résultats de toute entreprise à condition qu’elle s’accompagne d’un plan clair et d’attentes appropriées. La première étape consiste à se concentrer sur l’accessibilité et la facilité d’utilisation des données et non sur la collecte d’autant de données que possible.
En d’autres termes, une culture de données globale est tout aussi importante pour une entreprise que l’infrastructure de données.