ETL : utilisation des opérateurs ternaires pour l’extraction de données dans Excel
Comment utiliser une solution ETL pour extraire des informations d’un fichier Excel et les réconcilier ? Après vous avoir expliqué une méthode pour automatiser l’extraction à partir de nombreux fichiers Excel, dans le billet d’aujourd’hui je vais plus en profondeur et vous explique comment j’ai utilisé des opérateurs ternaires pour extraire l’information voulue. Présentation du problème Le problème...
Comment automatiser l’extraction de données à partir de fichiers Excel
Voici le problème auquel j’ai été confronté récemment. Un client m’a demandé de traiter des données qui provenaient de centaines de fichiers Excel. Franchement je n’avais pas envie de passer des heures à extraire manuellement ces données. Alors j’ai automatisé le processus grâce à Anatella et ai visualisé les données sous Tableau par la suite. Voici un petit tuto de data preparation et une bonne manière de...
SEO : 50000 pages analysées et 2m de requêtes facilement accessibles
Étude SEO. Nous avons analysé 50000 pages web, couvrant 185 mots-clés en lien avec la “data science” dans 16 pays. Les données brutes viennent d’Ahrefs. Nous avons utilisé Anatella pour préparer et nettoyer les données, et Tableau pour les visualiser. Le résultat principal révélé par cette étude est que des opportunités inexploitées existent de se classer en 1ère page de Google sur des mots-clés anglais en dehors des...
Data preparation : définition, exemples, conseils [guide 2021]
Pour parler de la data preparation, quoi de mieux que de partir d’un constat. Dans le monde de la data, il y une règle que tout le monde connaît : 80% du temps d’un data scientist est passé à préparer ses données ; et seulement 20% à travailler vraiment dessus, notamment à les visualiser. Dans cet article nous donnons un coup de projecteur sur la data preparation : les problèmes les plus souvent rencontrés, les outils et...
Les 5 niveaux de la data visualisation : exemples et conseils [guide 2021]
Après avoir écrit mon guide de la data visualisation, j’ai voulu développer dans un article séparé les 5 niveaux de la visualisation des données que j’y esquissais brièvement. Si vous voulez savoir où vous en êtes au niveau de votre pratique de la BI (Business Intelligence) et de la dataviz, cet article est fait pour vous ! Sommaire Introduction Niveau 0 (pas de dataviz) Niveau 1 (vous travaillez encore sous Excel ?)...
Data visualisation : définition, exemples, outils, conseils [guide 2021]
La Data Visualisation (“visualisation des données” en français, ou dataviz pour les initiés) est la discipline qui s’attache à représenter sous forme graphique des données brutes. Visualiser les données doit avoir pour but de créer de la valeur. Ces dernières années ont vu l’émergence de nouveaux outils et pratiques autour de la data visualisation, mais également celle de nouveaux métiers. Dans cet article nous...
[Podcast] L’apprentissage des outils numériques aux enfants
Nathalie Kuborn (We Are Coders), Gaëlle Girardeau (Cood) et Christophe Coquis (Geek Junior) nous parlent de l’apprentissage de l’informatique, des outils numériques et de l’introduction à la culture numérique pour les enfants : marché, parcours et conseils. Marché de l’apprentissage des outils numériques aux enfants L’émergence d’un besoin Le marché de l’apprentissage informatique aux enfants est en pleine émergence. Pour Gaëlle, cela...
La data science expliquée par un enfant
Le terme “data science” reste opaque pour le commun des mortels. Pourtant ces 2 mots sont souvent repris dans la presse comme l’une des disciplines les plus tendance du moment. Pour démystifier les termes utilisés dans le domaine de la data, nous avons lancé une série de vidéos animées par notre présentateur-vedette : Pierre-Raffaele (10 ans au moment du tournage) 🙂 Après le succès de sa série sur “Le Monde du...
[Podcast] L’essence du Data Art et de la Data Visualisation
Nicholas Rougeux se définit comme un “data artiste” (“data artist” en anglais) et le moins qu’on puisse dire c’est que son talent pour visualiser les données est évident. Tellement évident même qu’il commercialise son travail sous forme de posters … et je m’en suis même fait offrir un pour mon anniversaire 🙂 Courez voir son blog (www.c82.net) si vous manquez d’inspiration ou...
Tutoriel: comment créer un Joyplot sous Tableau
Après vous avoir expliqué comment créer une hexmap isométrique, je m’attaque à un sujet plus difficile : créer un joyplot sous Tableau. J’ai utilisé un joyplot dans la visualisation que j’ai soumise à l’IronViz. Comme ce type de graphique est relativement rare est que j’ai un peu galéré pour parvenir au résultat escompté, je me suis dit qu’un tutoriel serait le bienvenu. Sommaire Définition du...
Covid-19 : impact sur le marché du conseil IT et perspectives
La crise du Covid-19 a eu un impact énorme sur le marché de l’informatique. Certains pans de ce secteur en ont profité (pensez à tout ce qui tourne autour du télétravail) mais d’autres ont également énormément souffert. C’est le cas du conseil en IT. D’après une étude de Whoz publiée en Juin 2020, 13% des projets avait été abandonnés et 21% avaient été mis “on hold”. Jean-Philippe Couturier, le CEO...
Repenser l’expérience client au musée grâce aux (Big) data
Comment les Big Data peuvent-elles aider les musées à se réinventer ? Quelles techniques de collecte de données mettre en œuvre pour mieux comprendre les visiteurs ? Comment utiliser les données pour fidéliser les visiteurs ? Dans cet article nous proposons une série de réflexions sur les dispositifs muséographiques actuels, futurs, et sur les initiatives “data” qui peuvent être mises en place afin de améliorer...
Hexmap isométrique sous Tableau : un guide pas-à-pas
Dans le cadre de ma participation à l’Iron Viz 2020, j’ai créé un nouveau type de visualisation sous Tableau qui m’a valu beaucoup de commentaires positifs. Je l’ai appelé “hexmap isométrique’ (isometric hexmap). Dans cet article j’explique comment reproduire ce type de représentation et vous donne accès aux fichiers sources. Vous pouvez accéder à la version interactive sur Tableau Public. Si...
Tableau Iron Viz 2020 : réflexions sur ma première participation
L’Iron Viz est le “championnat du monde” qui couronne les 3 meilleurs développeurs Tableau, un logiciel qui permet de visualiser les données. Cette année j’ai décidé d’y participer également (accéder à ma contribution ici). Dans cet article je reviens sur mon expérience, ce que la préparation du concours m’a appris et sur les difficultés que j’ai rencontrées. 6 conseils pour une bonne #Dataviz...
Migrations en Europe : visualisation interactive sous Tableau
Comment représenter de manière attractive les migrations vers les pays de l’Union Européenne ? C’est la question à laquelle j’ai voulu répondre en utilisant Tableau Software. Si la question était simple, la réponse était loin de l’être et il m’a fallu quelques jours de réflexion pour trouver la bonne solution et le bon design. Je vous la présente ci-dessous avec le modus operandi pour la reproduire....
De quoi faut-il parler sur Linkedin pour avoir des likes et des commentaires ?
Après avoir analysé mes meilleures heures de publication sur Linkedin, je me suis attaqué à un problème autrement plus difficile : déterminer les sujets qui me rapportaient le plus de vues et d’engagement sur Linkedin. Dans le billet d’aujourd’hui je vais vous montrer les résultats que j’ai pu obtenir en utilisant 2 outils spécifiques : Anatella pour l’extraction et la préparation des données d’une...
Quelle est l’heure idéale pour poster sur Linkedin ?
Dans leur tentative de comprendre le fonctionnement de l’algorithme de Linkedin, les utilisateurs de ce réseau social débattent souvent de l‘heure idéale pour mettre son contenu en ligne. J’ai décidé de faire quelques analyses pour faire la part de vérité et de mythes dans cette histoire. Si ce genre d’analyse vous intéresse et si vous souhaitez faire la même chose avec vos données, inscrivez-vous à notre...
Fuzzy Matching dans Alteryx : tests, résultats et comparaison
Le fuzzy matching est une technique bien utile dans nombre de situations courantes. Alteryx propose une fonctionnalité de Fuzzy Matching que j’ai comparée à celle d’Anatella. J’avais d’ailleurs déjà parlé de Fuzzy Matching dans ce billet. Les fonctionnalités de Fuzzy Matching dans Tableau Prep builder n’en étant pas vraiment, j’ai voulu voir ce que Alteryx avait dans le ventre. Au final Anatella...
Fuzzy matching : comparaison de 4 méthodes pour réaliser une jointure
Dans un précédent article j’ai partagé avec vous une solution pour réaliser un fuzzy matching entre 2 tables différentes. J’avais alors comparé 2 solutions d’ETL (Extract Transform Load). Tableau Prep Builder n’avait pas permis d’aboutir au résultat désiré. Je m’étais donc tourné vers Anatella. Dans l’article d’aujourd’hui j’explore les différents algorithmes de Fuzzy...
Pour contrer les bulles de filtres cultivez les “maillons faibles” de votre réseau
La théorie des bulles de filtres est une fois de plus remise en question. Cette fois-ci c’est une étude américaine qui montre que c’est la composition de notre réseau qui détermine si nous serons piégés dans une bulle de filtres ou pas. En particulier, les “connexions faibles” sont cruciales pour être exposés à des contenus diversifiés. On vous explique tout dans cet article. Si vous n’avez que 30...
Algorithme de Linkedin : 1 réaction vous rapportera 83 vues
Comment influence l’algorithme de Linkedin ? Quelle est la corrélation entre le nombre de likes ou commentaires, et le nombre de vues dans Linkedin ? Tout le monde cherche à comprendre l’algorithme de Linkedin. Certains essayent même de le hacker. Si les hypothèses fleurissent, personne ne sait vraiment comment ça marche. Je me suis retroussé les manches et aujourd’hui je vous explique, modèle statistique à...
Fuzzy matching entre tables : 2 ETL comparés (Tableau Prep Builder vs. Anatella)
Si vous manipulez des données à des fins d’analyses et/ou de visualisations, vous avez sans doute déjà rencontré ce problème. Vous devez faire une jointure entre 2 bases de données mais les entrées dans le champ de référence ne sont pas exactement les mêmes. Différences d’orthographe, nomenclatures différentes, … les raisons sont multiples et variées. Dans le cadre d’une recherche que je fais pour visualiser...
Nouvel algorithme Linkedin : voici quoi faire pour rester visible
Les ingénieurs de Linkedin ont publié le 12 Mai 2020 la recette de leur nouvel algorithme. Le moins qu’on puisse dire c’est que ça change complètement les pratiques pour rendre un post viral. Si vous voulez que vos posts Linkedin soient encore vus (et accessoirement deviennent populaires), lisez attentivement ce qui suit. Seulement pour nos abonnés : analyses et conseils marketing exclusifs Adresse e-mail * Je...
Assurances connectées : fiabilité des bracelets connectés et hacking
Dans l’article d’aujourd’hui nous allons parler de la fiabilité des bracelets connectés de type fitbit et de leur hacking. Le phénomène est encore peu répandu en Europe mais aux Etats-Unis c’est devenu un vrai problème. Ce sont les propriétaires de ces bracelets connectés qui essayent de les hacker. Pourquoi ? Nous vous expliquons tout dans cet article. Nous en profitons pour vous livrer une analyse du secteur de...
Comment hacker les algorithmes de recommandation ?
Hacker un algorithme de recommandation est une opération qui peut rapporter gros. En effet, certains algorithmes de recommandation sont omniprésents dans notre vie digitale et orientent très fortement nos comportements. En fait, nous sommes devenus dépendants des algorithmes sans nous en rendre compte. On se souviendra par exemple que 35% des achats sur Amazon sont la conséquence directe d’une recommandation algorithmique. 80%...
Simon Weckert, artiste allemand a réussi à hacker google maps
Hacker un algorithme ? Ça n’est pas forcément si compliqué que cela et les conséquences économiques peuvent être importantes. En effet, tout aujourd’hui est régi par des algorithmes, en particulier les algorithmes de recommandation. Détourner à son profit un algorithme de recommandation peut donc avoir des conséquences économiques considérables. Dans l’article d’aujourd’hui nous souhaitons vous présenter...
2025 : la fin des algorithmes de personnalisation ?
A l’heure où Amazon réalise déjà 35% de son CA grâce à la recommandation algorithmique (voir infographie ci-dessous) et lance deux nouveaux outils de personnalisation (Discover et Showroom), le cabinet Gartner annonce lui la fin des algorithmes de personnalisation à l’horizon 2025. Cette annonce, paradoxale, nous sembler devoir mériter une analyse approfondie. Sommaire Infographie sur les algorithmes de recommandation A...
[Podcast] promesses et challenges de l’intelligence artificielle avec Ségolène Martin
Dans le podcast de cette semaine nous recevons Ségolène Martin, la CEO de Kantify, une entreprise spécialisée dans l’intelligence artificielle, basée à Bruxelles. L’intelligence artificielle est sans aucun doute un des sujets “à la mode” depuis quelques mois mais nous essayerons, dans ce podcast, d’aller au-delà des clichés. Nous nous intéresserons dès lors à la véritable valeur ajoutée de...
Comment réaliser de meilleures analyses marketing grâce au Big Data
Le progrès technologique nous permet aujourd’hui de profiter de conditions de vie incomparables. Maîtrise de l’espace, maîtrise de la reproduction, maîtrise de l’information sont des défis déjà relevés. La maîtrise du temps reste toutefois hors d’atteinte. Beaucoup des obsessions des Humains tournent autour de la maîtrise de cette ressource qui nous est offerte à notre naissance en une quantité désespérément...
Personnalisation de la relation client : comment gagner la confiance et les données ?
Les algorithmes de recommandation promettent aux marketeurs de réaliser leur Graal : celui de relations personnalisées avec tous leurs clients à un prix raisonnable. La qualité de la relation client étant un facteur décisif pour la satisfaction client et la fidélisation, les recommandations algorithmiques représentent donc la promesse d’interactions de qualité avec les clients et d’actions marketing pleines de sens. La...
YouTube vous permet d’effacer votre historique de consommation
Enfin une avancée notable du côté de l’algorithme de recommandation de YouTube ! Les utilisateurs ont désormais la possibilité d’effacer leur historique de consommation ou de suspendre la collecte de données. A notre connaissance c’est la première fois qu’un acteur du web aussi important laisse la possibilité à l’utilisateur d’influer sur les résultats qui lui sont proposés. C’est un pas...
Comment obtenir des internautes qu’ils partagent plus de données ?
Quelles données à caractère personnel les internautes sont-ils prêts à partager en échange d’une meilleure personnalisation de l’offre marketing ? Comment adapter sa stratégie marketing pour obtenir plus de données ? Ces questions suscitent de nombreux débats à l’heure du RGPD et à l’aube de l’entrée en vigueur de l’e-privacy. Quelles données une entreprise peut encore collecter sans craindre que...
Quelles régions françaises ont le plus l’esprit d’entreprendre ?
Dans notre dernier billet nous vous avons présenté une carte représentant les départements français où se créent le plus (et le moins) d’entreprises. Cette analyse, aussi intéressante qu’elle soit, devait être approfondie pour tenir compte des disparités qui existent en termes de densité de population. Un département très peu peuplé créera forcément moins d’entreprises qu’une grande ville (à fortiori une...
Data mining : où crée-t-on le plus d’entreprises en France ?
Où crée-t-on le plus d’entreprises en France ? Cette question est essentielle pour comprendre les dynamiques qui sont à l’œuvre dans les différents départements français. En utilisant les données de l’INSEE nous avons souhaité vous proposer une réponse simple. Toutefois, comme souvent, les données réservent des surprises et obtenir un bon (et beau) résultat nous a demandé quelques efforts. Si la business intelligence et en...
Ferrari, Lamborghini, … le marché de la voiture de luxe en B2B se porte bien en France
Saviez-vous qu’en France, des sociétés (et pas forcément des grandes) achètent des Ferrari, Lamborghini, Rolls-Royce, Bentley et autres Aston-Martin. Envie d’en savoir plus sur ces entreprises qui vont bien ? Suivez-nous dans un petit exercice de data mining. Introduction Entre 2014 et 2019 quelques centaines de super- et hypercars ont été immatriculées par des entreprises françaises : un peu plus de 200 Ferrari, une...
Médias : 4 projets de data journalisme qu’il vous faut connaître
Dans le cadre de la Big Data Initiative (que j’ai l’honneur de présider) de l’Union Européenne de Radio-Télévisions (UER), nous avons organisé les 26 et 27 février 2019 à Munich une conférence intitulée “data in the newsroom” qui avait pour but de présenter les derniers projets des membres (UER) en matière de data journalisme et d’inspirer ceux qui ne s’étaient pas encore lancer dans cette...