Et si Bard (Google) était entraîné sur des données de Gmail ?
Le scandale est potentiellement énorme. Kate Crawford a publié sur Twitter (voir capture d’écran ci-dessous) une réponse faite par Bard, l’agent conversationnel de Google utilisant une IA générative, à une question pourtant anodine : « D’où viennent les données de Bard ? ». Bien que la réponse de Bard puisse relever d’une hallucination, je pense qu’il faut garder à l’esprit que Google a démontré,...
Plugins chatGPT : disruptifs pour le futur de la tech
Expedia vient d’annoncer sur Twitter le lancement d’un plugin dopé à l’IA générative de chatGPT. Au même moment, un « hacker » a révélé la liste « secrète » des plugins disponibles sur chatGPT. L’écosystème des plugins chatGPT pourrait bien tracer le futur des usages des LLM (Large Langage Models). Contrairement à une opinion populaire, je ne pense pas que cela remette en cause la recherche Google telle que...
ChatGPT : 4 sources de risques pour l’inbound marketing
Après quelques semaines d’utilisation de ChatGPT et du nouveau Bing, je me penche sur les dangers de ces agents conversationnels pour les entreprises qui utilisent l’inbound marketing. J’ai identifié 4 problèmes qui sont susceptibles d’impacter négativement les utilisateurs en fonction du contexte de la recherche. Par ricochet, les entreprises qui misaient sur le SEO pour trouver des clients risquent de...
ChatGPT et Bing ne remplaceront pas Google. Voici pourquoi.
Selon Microsoft, 50 % des recherches online pourraient être réalisées via un agent conversationnel (ChatBOT) s’appuyant sur une IA générative. Et si les internautes étaient tout simplement hermétiques à cette proposition de valeur ? Tout dépend en effet de la volonté des internautes de changer leur manière de chercher de l’information online. Or l’expérience utilisateur proposée par Google est ancrée en nous depuis...
ChatGPT : 1000 textes analysés et jusqu’à 75,3% de similarité
Est-ce que chaque réponse générée par ChatGPT est vraiment unique ? Ou sommes-nous en train de surestimer sa capacité à produire des textes différents ? C’est la question que je me suis posée après avoir analysé 1000 textes produits par ChatGPT. Pour répondre à cette question, j’ai comparé la similarité entre 1.000.000 de paires de textes générés par cette intelligence artificielle. Les résultats sont étonnants et...
6 algorithmes qui ont déclenché des catastrophes
Les algorithmes sont de plus en plus utilisés pour aider les humains dans leurs décisions. Un algorithme mal programmé, ou un humain manquant de sens critique, sont des causes récurrentes aux erreurs algorithmiques. Celles-ci déclenchent parfois la colère des utilisateurs ou les incite à les hacker. Dans cet article nous analysons 6 erreurs algorithmiques qui ont eu des conséquences néfastes sur des humains. Le 4ème exemple est...
ETL : Anatella en version web avec des performances de haut niveau
Si vous vous intéressez à la data science, vous savez que la préparation des données (ou « data prep ») est une étape très chronophage. C’est pourquoi le choix d’un bon logiciel d’ETL est si important. En la matière, ma solution préférée s’appelle Anatella. J’apprécie notamment ses qualités en termes de rapidité et la richesse des transformations proposées. Alors forcément, quand un nouveau produit arrive...
Patek Philippe Nautilus : comment les prix ont-ils évolué en 4 ans ?
Quel est le prix d’une Patek Philippe Nautilus ? Comment vont évoluer les prix des Nautilus ? Répondre à ces questions, aussi pertinentes soient-elles, est devenu extrêmement difficile suite à la bulle qui s’est formée sur le marché des montres de luxe pour hommes. Certains modèles ont vu leur cote exploser. La Nautilus de Patek Philippe en fait partie. Dans cet article nous analysons l’historique des prix de 31...
L’algorithme de Linkedin encore modifié en 2022 : quels impacts ?
L’algorithme de Linkedin a subi en Mai 2022 des modifications assez importantes. Linkedin introduit des contraintes dans son algorithme et prend en compte plus de variables explicites. Il en résulte des impacts importants pour la visibilité des posts. Bien que le fonctionnement de base de l’algorithme de Linkedin ne soit a priori pas changé, nous analysons pour vous ces annonces . Les objectifs des modifications de...
57 statistiques Linkedin inédites [2022]
Les statistiques Linkedin que vous trouverez sur internet sont souvent toujours les mêmes : nombre d’utilisateurs, leur répartition géographique, leur âge … Dans cet article nous vous proposons 57 statistiques Linkedin inédites. Elles sont inédites tout simplement parce qu’elles sont calculées à partir d’un dataset dont nous sommes les seuls à disposer. C’est ce même dataset qui nous avait déjà permis de...
Homme – Femme : le combat pour l’influence est inégal sur Linkedin
Dans une première analyse, j’ai montré que les influenceuses sur Linkedin étaient en majorité jeunes (18-30). L’âge serait-il un facteur jouant sur la viralité des posts Linkedin ? Pour en avoir le cœur net, il me fallait donc vérifier si mes premières conclusions étaient applicables aux hommes également. Si vous n’avez que 30 secondes La moitié des influenceuses Linkedin ont moins de 30 ans. C’est 2 fois plus...
Sur Linkedin les femmes sont 17,3% plus virales que les hommes
Vaut-il mieux être une femme pour être influenceur Linkedin ? C’est en tout cas ce que laissait entrevoir une étude préliminaire que nous avions réalisée. Aujourd’hui nous étendons cette étude à près de 5 millions de posts Linkedin. Les résultats montrent qu’au-delà de 500 réactions, les posts des femmes recueillent 17,3% de réactions en plus. Des différences notables existent toutefois en fonction de la langue. Si...
Pour faire le buzz sur Linkedin il vaut mieux être une femme … jeune
L’analyse de 1118 posts Linkedin viraux montre une domination des femmes en matière de réactions (likes et commentaires). Bien que les hommes soient plus nombreux, ils recueillent en moyenne moins de réactions. Parmi ces influenceuses, on relève également une nette domination (près de 50%) des femmes de 18 à 30 ans. Cette domination s’exerce tant au niveau du nombre de profils dans cette tranche d’âge que du nombre...
CBD online : Français et Anglais, tous accros ! [Etude SEO]
Une étude SEO sur les recherches online en lien avec le CBD montre que 2 pays se partagent la première place. C’est en France et au Royaume-Uni que se concentrent le plus grand nombre de recherches par habitants. Près de 2% de la population effectuent une recherche online sur le CBD chaque mois. L’étude SEO que nous avons réalisée dans 31 pays montre en outre des différences notables en ce qui concerne les mots-clés utilisés....
ETL : comparaison, critères de choix, conseils [guide 2022]
ETL : Extract – Transform – Load. Ces 3 mots résument à eux seuls les fonctionnalités que les solutions logicielles qui appartiennent à cette famille doivent remplir. Un outil ETL est donc un logiciel, local ou sur le cloud, qui permet de faciliter la data preparation. Cette dernière s’attache à réaliser 3 types d’opérations sur des données : (1) les extraire à partir de fichiers de différentes natures ; (2)...
Audiences Netflix : rude compétition pour les films et séries les plus vus
Netflix publie désormais ses audiences hebdomadaires sous forme d’un TOP 10 du nombre d’heures de visionnage dans le monde. Bien que Netflix ne publie que le nombre total d’heures visionnées, ces données restent malgré tout riches d’enseignement pour qui veut comprendre comment les audiences des top films et top séries de Netflix évoluent. Nous analysons dans cet article les données des films et séries Netflix...
Dialoguer avec les morts, le futur de l’intelligence artificielle ?
Les deadbots sont une nouvelle application de l’intelligence artificielle. Personnellement, elle me fait peur. Les deadbots sont des chatbots qui vous permettent de converser avec des personnes décédées en en imitant les réponses. Leur développement s’inscrit dans un contexte plus global de virtualisation des relations et d’effacement des frontières entre le monde physique et le monde digital. Joshua Barbeau a parlé...
On pardonne plus facilement les erreurs aux algorithmes qu’aux humains
Les algorithmes ont pris le pouvoir. Ils sont chargés de prendre de plus en plus de décisions. Des décisions de plus en plus complexes qui affectent tous les pans de nos vies. Pourtant les algorithmes ne sont pas parfaits. Ils font aussi des erreurs. Alors une question se pose : pour une même erreur, pardonnons-nous plus facilement aux algorithmes qu’aux êtres humains ? Une étude de 2021 apporte un éclairage inédit sur la...
Comment favoriser la découverte avec les algorithmes de recommandation
La conférence ReCSys 2021 sur les algorithmes de recommandation vient de se terminer. Le mode hybride n’a pas facilité les interactions mais les présentations intéressantes se sont succédé et n’auront pas manqué de susciter, çà et là, de nouvelles idées. Tel a été le cas de la keynote de Cynthia Liem (Delft University of Technology). Cynthia a la particularité de combiner 2 talents : elle est chercheuse en informatique...
Cloud Act et RGPD : peut-on héberger ses données dans le Cloud ?
L’utilisation que vous faites de services dans le Cloud vous conduit-elle à enfreindre le RGPD ? Pouvez-vous stocker vos données sur AWS, Azure, … tout en respectant le RGPD ? Le Cloud Act américain sème le doute et crée une incertitude juridique dont nous avons débattu avec Me. Jérôme Tassi, avocat au barreau de Paris. Introduction Le point de départ de cet article (et de la vidéo qui l’accompagne) est une réflexion...
Le panda est l’émoji qui rapporte le plus sur Linkedin
L’analyse de 2,9 millions d’émojis sur Linkedin livre une information surprenante : le ? est l’émoji qui susciterait le plus de réactions. Ce cas d’étude nous offre une occasion de jeter un regard critique sur les données et de comprendre l’origine d’un phénomène qui pollue Linkedin. Suivez-moi pour un exercice de data mining passionnant. Pour en savoir plus sur les facteurs qui impactent la...
Les émojis les plus utilisés sur Linkedin [analyse et statistiques]
Quels sont les émojis les plus utilisés sur Linkedin ? Les émojis les plus utilisés sur Linkedin varient-ils en fonction de la langue et du pays ? Dans cette analyse découvrez les statistiques exclusives sur l’utilisation des émojis sur Linkedin. Si vous êtes passionné par les statistiques sur Linkedin, ne manquez pas mes autres billets sur le sujet : statistiques sur les hashtags, les 3 facteurs qui expliquent 55% de la...
Quels sont les hashtags les plus populaires sur Linkedin ?
Les hashtags sur Linkedin sont sans doute un des sujets les plus populaires au sujet de ce réseau social. Des hypothèses existent sur l’utilisation que fait l’algorithme de Linkedin des hashtags. Pourtant, j’ai démontré statistiquement ici que les hashtags n’avaient pas d’impact significatif sur la viralité des posts. Quoi qu’il en soit, le dataset dont je dispose (4,6 millions de posts) permet...
Linkedin : les sentiments exprimés et leur effet sur la viralité
Tout le monde s’accorde pour dire que le contenu des posts Linkedin est déterminant dans la probabilité qu’ils deviennent viraux. Aujourd’hui je ne vais pas répondre à la question « De quoi faut-il parler sur Linkedin ? » mais plutôt « Comment faut-il en parler ?« . J’ai utilisé un corpus de 4 millions de posts Linkedin pour mesurer les sentiments exprimés et analyser la corrélation avec leur viralité. Cette...
Tutoriel Tableau : un diagramme radial et une carte circulaire
Comment faire un diagramme radial sous Tableau ? Comment y intégrer une carte géographique circulaire ? Dans cet article je vous guide pas à pas dans la réalisation de cette data visualisation. Introduction Pour ma prochaine étude sur les levées de fonds en Europe, j’ai voulu tester une data visualisation sous forme de diagramme radial. Pour obtenir un résultat encore plus intéressant, j’ai intégré en son centre une carte...
Les 11 défis de la data préparation et du data wrangling
Les évènements de 2020 ont accéléré le basculement vers le télétravail et les relations digitales. Avec la digitalisation, une autre transformation est également en marche: la transformation analytique. Pour faire face à cette révolution des données, je trouve que les entreprises ne disposent pas forcément des bons outils quand il s’agit de préparer et d’analyser les données (c’est la data preparation ou le data...
Data preparation : comment gagner 85% de temps de traitement
Dans un article précédent j’avais réalisé un benchmark de 4 solutions ETL pour le traitement d’un fichier d’un milliard de lignes. Aujourd’hui je teste l’effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx, Tableau Prep, Talend et Anatella. Les résultats sont assez inattendus. Introduction et rappel Dans mon analyse précédente j’avais comparé la vitesse de...
Les 3 facteurs qui déterminent 55% du succès de vos posts Linkedin
Comprendre le fonctionnement de l’algorithme de Linkedin est une nécessité pour rester visible sur ce réseau social. Dans cet article je vous révèle les résultats d’une analyse que j’ai réalisé sur 4,599 millions de posts Linkedin dans 193 pays. Les résultats sont étonnants et mettent à mal pas mal de préconçus. Seulement 3 facteurs jouent un rôle sur la visibilité des posts Linkedin. Cet article reprend en outre les...
Voici le facteur qui compte le plus pour la viralité de vos posts Linkedin
Après avoir abordé l’effet des émojis et du nombre de mots sur la viralité des posts Linkedin, il est temps de révéler LE facteur qui écrase tous les autres. Ce facteur compte pour 1/3 dans le succès de vos posts Linkedin. Vous devriez donc prendre le temps de lire les résultats de l’étude que je viens de mener sur 4,6 millions de posts Linkedin dans 193 pays. Les résultats inédits présentés ici ont été obtenus grâce à des...
Linkedin : statistiques d’engagement par pays et par langue
Comment varie l’engagement sur Linkedin en fonction de la langue et du pays ? Au niveau mondial, 71,06% des posts Linkedin ne reçoivent aucun commentaire, et 24,39% aucun Like. L’analyse de 4,599 millions de posts Linkedin nous offre une vue objective sur les différences importantes qui existent. Les données proviennent d’un dataset mis à disposition par Linkalyze. La préparation des données a été réalisée en...
Linkedin : l’étonnant effet des émojis sur la viralité des posts
Faut-il mettre des émojis dans vos posts Linkedin et si oui combien ? Dans l’article d’aujourd’hui je vous révèle les résultats d’une étude que j’ai menée sur 4,599 millions de posts Linkedin. Cette étude suit celles que j’ai déjà publiées sur l’impact des hashtags et du nombre de mots. Si vous voulez être les premiers à recevoir mes résultats, abonnez-vous à ma newsletter (n’oubliez pas...
224 mots, le nombre magique pour booster la viralité de vos posts Linkedin
Le nombre de mots est un des facteurs qui détermine le succès d’un post sur Linkedin, au même titre que les hashtags. J’ai réalisé une analyse sur près de 5 millions de posts dans 100 pays qui montre une corrélation linéaire entre le nombre de mots d’un post sur Linkedin et son nombre de likes / commentaires. Les posts qui comprennent entre 224 et 227 mots sont 6x plus de chances d’obtenir plus de 100 réactions...
Combien de hashtags faut-il mettre dans vos posts Linkedin ? [Etude]
Combien d’hashtags faut-il mettre dans vos posts Linkedin pour en augmenter sa visibilité ? D’ailleurs, est-ce une bonne chose de mettre des hashtags et comment réagit l’algorithme de Linkedin ? J’ai analysé 4,988 millions de posts Linkedin dans plus de 100 pays et je vous apporte la réponse dans cet article. Si vous souhaitez recevoir d’autres résultats exclusifs par email, n’hésitez pas à vous...
Data Mining : définitions, 5 outils gratuits et techniques
Venant après le processus de collecte et de préparation des données, l’analyse des données est une étape nécessaire pour trouver un sens à un ensemble de données (le dataset). Regarder des listes de données brutes ne permet guère de construire des modèles de comportement des clients, il faut donc trouver un moyen intelligent (le « data mining » ou « exploration des données ») de passer les informations au crible. En utilisant...
L’IA enrichit l’expérience des visiteurs de l’exposition Alechinsky
Dans un contexte où la culture est sévèrement impactée par la crise du Covid, il est plus que jamais important de fidéliser les visiteurs. J’avais proposé différentes pistes de réflexions pour améliorer l’expérience client dans les musées et vous propose aujourd’hui de découvrir une initiative des Musées Royaux des Beaux-Arts de Bruxelles. Une exposition consacrée à l’artiste belge Pierre Alechinsky vient de...
La place du data wrangling dans le cycle de valorisation des données
Dans le monde de la data, le data wrangling est un peu le mot à la mode ces derniers temps. Nous vous en avons déjà proposé un aperçu général ici. Dans l’article d’aujourd’hui nous vous l’expliquons plus en détail et positionnons le data wrangling au sein du cycle de mise en valeur des données. Sommaire Rappel sur le data wrangling Etape 1 : l’acquisition des données Etape 2 : le stockage des données...