Les 11 défis de la data préparation et du data wrangling
Par Pierre-Nicolas Schwab •
Les évènements de 2020 ont accéléré le basculement vers le télétravail et les relations digitales. Avec la digitalisation, une autre transformation est également en marche: la transformation analytique. Pour faire face à cette révolution des données, je trouve que les…
Data preparation : comment gagner 85% de temps de traitement
Dans un article précédent j'avais réalisé un benchmark de 4 solutions ETL pour le traitement d'un fichier d'un milliard de lignes. Aujourd'hui je teste l'effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx,…
Les 3 facteurs qui déterminent 55% du succès de vos posts Linkedin
Comprendre le fonctionnement de l'algorithme de Linkedin est une nécessité pour rester visible sur ce réseau social. Dans cet article je vous révèle les résultats d'une analyse que j'ai réalisé sur 4,599 millions de posts Linkedin dans 193 pays. Les…
Voici le facteur qui compte le plus pour la viralité de vos posts Linkedin
Après avoir abordé l'effet des émojis et du nombre de mots sur la viralité des posts Linkedin, il est temps de révéler LE facteur qui écrase tous les autres. Ce facteur compte pour 1/3 dans le succès de vos posts…
Linkedin : statistiques d’engagement par pays et par langue
Comment varie l'engagement sur Linkedin en fonction de la langue et du pays ? Au niveau mondial, 71,06% des posts Linkedin ne reçoivent aucun commentaire, et 24,39% aucun Like. L'analyse de 4,599 millions de posts Linkedin nous offre une vue…
Linkedin : l’étonnant effet des émojis sur la viralité des posts
Par Pierre-Nicolas Schwab •
Faut-il mettre des émojis dans vos posts Linkedin et si oui combien ? Dans l'article d'aujourd'hui je vous révèle les résultats d'une étude que j'ai menée sur 4,599 millions de posts Linkedin. Cette étude suit celles que j'ai déjà publiées…
224 mots, le nombre magique pour booster la viralité de vos posts Linkedin
Le nombre de mots est un des facteurs qui détermine le succès d'un post sur Linkedin, au même titre que les hashtags. J'ai réalisé une analyse sur près de 5 millions de posts dans 100 pays qui montre une corrélation…
Combien de hashtags faut-il mettre dans vos posts Linkedin ? [Etude]
Combien d'hashtags faut-il mettre dans vos posts Linkedin pour en augmenter sa visibilité ? D'ailleurs, est-ce une bonne chose de mettre des hashtags et comment réagit l'algorithme de Linkedin ? J'ai analysé 4,988 millions de posts Linkedin dans plus de…
Data Mining : définitions, 5 outils gratuits et techniques
Venant après le processus de collecte et de préparation des données, l'analyse des données est une étape nécessaire pour trouver un sens à un ensemble de données (le dataset). Regarder des listes de données brutes ne permet guère de construire…
L’IA enrichit l’expérience des visiteurs de l’exposition Alechinsky
Dans un contexte où la culture est sévèrement impactée par la crise du Covid, il est plus que jamais important de fidéliser les visiteurs. J'avais proposé différentes pistes de réflexions pour améliorer l'expérience client dans les musées et vous propose aujourd'hui…
La place du data wrangling dans le cycle de valorisation des données
Dans le monde de la data, le data wrangling est un peu le mot à la mode ces derniers temps. Nous vous en avons déjà proposé un aperçu général ici. Dans l'article d'aujourd'hui nous vous l'expliquons plus en détail et…
Excel domine le monde de l’entreprise … et ce n’est pas près de changer
Rares sont les marques qui ont un taux de pénétration de 100%. Microsoft est de celle-là. Plus fort encore, on peut affirmer qu'un de ses produits, Microsoft Excel, est utilisé par 99,99% des entreprises dans le monde. Microsoft Excel est…
Data Wrangling : définition, étapes, outils [guide 2021]
Le terme "Data wrangling" est également connu sous le nom de "Data Munging". Ce terme technique peut sembler intimidant à première vue. L'ambition de cet article est de le démystifier. Le data wrangling est défini comme une partie importante d'un…
Benchmark ETL : quel temps faut-il pour traiter 1 milliard de lignes ?
Dans un article précédent, je mettais en avant l'importance de la vitesse de traitement pour le choix d'une solution de data preparation (ETL). J'avais réalisé un premier benchmark entre Alteryx, Tableau Prep et Anatella sur un fichier de 108 millions…
Data preparation : comment choisir la solution adaptée à vos besoins ?
J'utilise régulièrement 4 solutions de data preparation : Alteryx, Tableau Prep , Talend et Anatella. Le benchmark de G2 en recense pas moins de 40. Dans cet article je vous explique pourquoi le benchmark G2 n'est pas forcément pertinent, et…
Benchmark : quel ETL choisir pour manipuler des fichiers de grande taille ?
En matière de data preparation, force est de constater qu'une grande partie des processus se passent encore "offline", avec des archives extraites des bases de données relationnelles. Et quand il s'agit pour les data engineers de manipuler ces archives, mieux…
ETL : utilisation des opérateurs ternaires pour l’extraction de données dans Excel
Comment utiliser un outil ETL pour extraire des informations d'un fichier Excel et les réconcilier ? Après vous avoir expliqué une méthode pour automatiser l'extraction à partir de nombreux fichiers Excel, dans le billet d'aujourd'hui je vais plus en profondeur…
Comment automatiser l’extraction de données à partir de fichiers Excel
Voici le problème auquel j'ai été confronté récemment. Un client m'a demandé de traiter des données qui provenaient de centaines de fichiers Excel. Franchement je n'avais pas envie de passer des heures à extraire manuellement ces données. Alors j'ai automatisé…
SEO : 50000 pages analysées et 2m de requêtes facilement accessibles
Dans cette étude SEO nous avons analysé 50000 pages web, couvrant 185 mots-clés en lien avec la "data science" dans 16 pays. Le résultat principal révélé par cette étude est que des opportunités inexploitées existent de se classer en 1ère…
Data preparation : définition, exemples, conseils [guide 2023]
Pour parler de la data preparation, quoi de mieux que de partir d'un constat. Dans le monde de la data, il y une règle que tout le monde connaît : 80% du temps d'un data scientist est passé à préparer…
Les 5 niveaux de la data visualisation : exemples et conseils [guide ultime]
Après avoir écrit mon guide de la data visualisation, j'ai voulu développer dans un article séparé les 5 niveaux de la visualisation des données que j'y esquissais brièvement. Si vous voulez savoir où vous en êtes au niveau de votre…
Data visualisation : définition, exemples, outils, conseils [guide 2023]
La Data Visualisation ("visualisation des données" en français, ou "dataviz" pour les initiés) est la discipline qui s'attache à représenter sous forme graphique des données brutes. Visualiser les données doit avoir pour but de créer de la valeur. Ces dernières…
[Podcast] L’apprentissage des outils numériques aux enfants
Nathalie Kuborn (We Are Coders), Gaëlle Girardeau (Cood) et Christophe Coquis (Geek Junior) nous parlent de l’apprentissage de l’informatique, des outils numériques et de l’introduction à la culture numérique pour les enfants : marché, parcours et conseils. Marché de l’apprentissage…
La data science expliquée par un enfant
Le terme "data science" reste opaque pour le commun des mortels. Pourtant ces 2 mots sont souvent repris dans la presse comme l'une des disciplines les plus tendance du moment. Pour démystifier les termes utilisés dans le domaine de la…
[Podcast] L’essence du Data Art et de la Data Visualisation
Nicholas Rougeux se définit comme un "data artiste" ("data artist" en anglais) et le moins qu'on puisse dire c'est que son talent pour visualiser les données est évident. Tellement évident même qu'il commercialise son travail sous forme de posters ...…
Tutoriel: comment créer un Joyplot sous Tableau
Après vous avoir expliqué comment créer une hexmap isométrique, je m'attaque à un sujet plus difficile : créer un joyplot sous Tableau. J'ai utilisé un joyplot dans la visualisation que j'ai soumise à l'IronViz. Comme ce type de graphique est…
Covid-19 : impact sur le marché du conseil IT et perspectives
La crise du Covid-19 a eu un impact énorme sur le marché de l'informatique. Certains pans de ce secteur en ont profité (pensez à tout ce qui tourne autour du télétravail) mais d'autres ont également énormément souffert. C'est le cas…
Repenser l’expérience client au musée grâce aux (Big) data
Comment les Big Data peuvent-elles aider les musées à se réinventer ? Quelles techniques de collecte de données mettre en œuvre pour mieux comprendre les visiteurs ? Comment utiliser les données pour fidéliser les visiteurs ? Dans cet article nous…
Hexmap isométrique sous Tableau : un guide pas-à-pas
Dans le cadre de ma participation à l'Iron Viz 2020, j'ai créé un nouveau type de visualisation sous Tableau qui m'a valu beaucoup de commentaires positifs. Je l'ai appelé "hexmap isométrique' (isometric hexmap). Dans cet article j'explique comment reproduire ce…
Tableau Iron Viz 2020 : réflexions sur ma première participation
L'Iron Viz est le "championnat du monde" qui couronne les 3 meilleurs développeurs Tableau, un logiciel qui permet de visualiser les données. Cette année j'ai décidé d'y participer également (accéder à ma contribution ici). Dans cet article je reviens sur…
Migrations en Europe : visualisation interactive sous Tableau
Comment représenter de manière attractive les migrations vers les pays de l'Union Européenne ? C'est la question à laquelle j'ai voulu répondre en utilisant Tableau Software. Si la question était simple, la réponse était loin de l'être et il m'a…
De quoi faut-il parler sur Linkedin pour avoir des likes et des commentaires ?
Après avoir analysé mes meilleures heures de publication sur Linkedin, je me suis attaqué à un problème autrement plus difficile : déterminer les sujets qui me rapportaient le plus de vues et d'engagement sur Linkedin. Dans le billet d'aujourd'hui je…
Quelle est l’heure idéale pour poster sur Linkedin ?
Dans leur tentative de comprendre le fonctionnement de l'algorithme de Linkedin, les utilisateurs de ce réseau social débattent souvent de l'heure idéale pour mettre son contenu en ligne. J'ai décidé de faire quelques analyses pour faire la part de vérité…
Fuzzy Matching dans Alteryx : tests, résultats et comparaison
Le fuzzy matching est une technique bien utile dans nombre de situations courantes. Alteryx propose une fonctionnalité de Fuzzy Matching que j'ai comparée à celle d'Anatella. J'avais d'ailleurs déjà parlé de Fuzzy Matching dans ce billet. Les fonctionnalités de Fuzzy…
Fuzzy matching : comparaison de 4 méthodes pour réaliser une jointure
Dans un précédent article j'ai partagé avec vous une solution pour réaliser un fuzzy matching entre 2 tables différentes. J'avais alors comparé 2 solutions d'ETL (Extract Transform Load). Tableau Prep Builder n'avait pas permis d'aboutir au résultat désiré. Je m'étais…
Pour contrer les bulles de filtres cultivez les « maillons faibles » de votre réseau
La théorie des bulles de filtres est une fois de plus remise en question. Cette fois-ci c'est une étude américaine qui montre que c'est la composition de notre réseau qui détermine si nous serons piégés dans une bulle de filtres…