Le blog de la société IntoTheMinds
Conseils en Data & IT
Et si Bard (Google) était entraîné sur des données de Gmail ?
Avr07

Et si Bard (Google) était entraîné sur des données de Gmail ?

Le scandale est potentiellement énorme. Kate Crawford a publié sur Twitter (voir capture d’écran ci-dessous) une réponse faite par Bard, l’agent conversationnel de Google utilisant une IA générative, à une question pourtant anodine : « D’où viennent les données de Bard ? ». Bien que la réponse de Bard puisse relever d’une hallucination, je pense qu’il faut garder à l’esprit que Google a démontré, par le passé, sa capacité à s’affranchir des règles les plus élémentaires en matière...

Lire la suite
Plugins chatGPT : disruptifs pour le futur de la tech
Avr05

Plugins chatGPT : disruptifs pour le futur de la tech

Expedia vient d’annoncer sur Twitter le lancement d’un plugin dopé à l’IA générative de chatGPT. Au même moment, un « hacker » a révélé la liste « secrète » des plugins disponibles sur chatGPT. L’écosystème des plugins chatGPT pourrait bien tracer le futur des usages des LLM (Large Langage Models). Contrairement à une opinion populaire, je ne pense pas que cela remette en cause la recherche Google telle que nous la connaissons. Par contre des pans entiers de l’écosystème tech...

Lire la suite
ChatGPT : 4 sources de risques pour l’inbound marketing
Mar23

ChatGPT : 4 sources de risques pour l’inbound marketing

Après quelques semaines d’utilisation de ChatGPT et du nouveau Bing, je me penche sur les dangers de ces agents conversationnels pour les entreprises qui utilisent l’inbound marketing. J’ai identifié 4 problèmes qui sont susceptibles d’impacter négativement les utilisateurs en fonction du contexte de la recherche. Par ricochet, les entreprises qui misaient sur le SEO pour trouver des clients risquent de rencontrer des difficultés de lead generation. Contactez notre agence pour vos projets d’inbound marketing Sommaire Opacité...

Lire la suite
ChatGPT et Bing ne remplaceront pas Google. Voici pourquoi.
Mar07

ChatGPT et Bing ne remplaceront pas Google. Voici pourquoi.

Selon Microsoft, 50 % des recherches online pourraient être réalisées via un agent conversationnel (ChatBOT) s’appuyant sur une IA générative. Et si les internautes étaient tout simplement hermétiques à cette proposition de valeur ? Tout dépend en effet de la volonté des internautes de changer leur manière de chercher de l’information online. Or l’expérience utilisateur proposée par Google est ancrée en nous depuis près de 20 ans. Je doute donc que les internautes changent leurs habitudes...

Lire la suite
ChatGPT : 1000 textes analysés et jusqu’à 75,3% de similarité
Fév16

ChatGPT : 1000 textes analysés et jusqu’à 75,3% de similarité

Est-ce que chaque réponse générée par ChatGPT est vraiment unique ? Ou sommes-nous en train de surestimer sa capacité à produire des textes différents ? C’est la question que je me suis posée après avoir analysé 1000 textes produits par ChatGPT. Pour répondre à cette question, j’ai comparé la similarité entre 1.000.000 de paires de textes générés par cette intelligence artificielle. Les résultats sont étonnants et remettent en question la promesse d’OpenAI. Découvrez dans cet article...

Lire la suite
6 algorithmes qui ont déclenché des catastrophes
Oct12

6 algorithmes qui ont déclenché des catastrophes

Les algorithmes sont de plus en plus utilisés pour aider les humains dans leurs décisions. Un algorithme mal programmé, ou un humain manquant de sens critique, sont des causes récurrentes aux erreurs algorithmiques. Celles-ci déclenchent parfois la colère des utilisateurs ou les incite à les hacker. Dans cet article nous analysons 6 erreurs algorithmiques qui ont eu des conséquences néfastes sur des humains. Le 4ème exemple est particulièrement grave car il a impacté des milliers de...

Lire la suite
ETL : Anatella en version web avec des performances de haut niveau
Juin17

ETL : Anatella en version web avec des performances de haut niveau

Si vous vous intéressez à la data science, vous savez que la préparation des données (ou « data prep ») est une étape très chronophage. C’est pourquoi le choix d’un bon logiciel d’ETL est si important. En la matière, ma solution préférée s’appelle Anatella. J’apprécie notamment ses qualités en termes de rapidité et la richesse des transformations proposées. Alors forcément, quand un nouveau produit arrive sur le marché je suis toujours enthousiaste. En l’occurrence il s’agit de la...

Lire la suite
Patek Philippe Nautilus : comment les prix ont-ils évolué en 4 ans ?
Juin15

Patek Philippe Nautilus : comment les prix ont-ils évolué en 4 ans ?

Quel est le prix d’une Patek Philippe Nautilus ? Comment vont évoluer les prix des Nautilus ? Répondre à ces questions, aussi pertinentes soient-elles, est devenu extrêmement difficile suite à la bulle qui s’est formée sur le marché des montres de luxe pour hommes. Certains modèles ont vu leur cote exploser. La Nautilus de Patek Philippe en fait partie. Dans cet article nous analysons l’historique des prix de 31 modèles de Patek Philippe Nautilus. Nous vous révélons les...

Lire la suite
L’algorithme de Linkedin encore modifié en 2022 : quels impacts ?
Mai16

L’algorithme de Linkedin encore modifié en 2022 : quels impacts ?

L’algorithme de Linkedin a subi en Mai 2022 des modifications assez importantes. Linkedin introduit des contraintes dans son algorithme et prend en compte plus de variables explicites. Il en résulte des impacts importants pour la visibilité des posts. Bien que le fonctionnement de base de l’algorithme de Linkedin ne soit a priori pas changé, nous analysons pour vous ces annonces . Les objectifs des modifications de l’algorithme de Linkedin Les règles de mise en avant des...

Lire la suite
57 statistiques Linkedin inédites
Avr15

57 statistiques Linkedin inédites

Les statistiques Linkedin que vous trouverez sur internet sont souvent toujours les mêmes : nombre d’utilisateurs, leur répartition géographique, leur âge … Dans cet article nous vous proposons 57 statistiques Linkedin inédites. Elles sont inédites tout simplement parce qu’elles sont calculées à partir d’un dataset dont nous sommes les seuls à disposer. C’est ce même dataset qui nous avait déjà permis de percer certains des mystères de l’algorithme Linkedin (basé depuis 2020 sur le dwell time)...

Lire la suite
Homme – Femme : le combat pour l’influence est inégal sur Linkedin
Avr04

Homme – Femme : le combat pour l’influence est inégal sur Linkedin

Dans une première analyse, j’ai montré que les influenceuses sur Linkedin étaient en majorité jeunes (18-30). L’âge serait-il un facteur jouant sur la viralité des posts Linkedin ? Pour en avoir le cœur net, il me fallait donc vérifier si mes premières conclusions étaient applicables aux hommes également. Si vous n’avez que 30 secondes La moitié des influenceuses Linkedin ont moins de 30 ans. C’est 2 fois plus que chez leurs homologues masculins Toutes langues confondues,...

Lire la suite
Sur Linkedin les femmes sont 17,3% plus virales que les hommes
Mar28

Sur Linkedin les femmes sont 17,3% plus virales que les hommes

Vaut-il mieux être une femme pour être influenceur Linkedin ? C’est en tout cas ce que laissait entrevoir une étude préliminaire que nous avions réalisée. Aujourd’hui nous étendons cette étude à près de 5 millions de posts Linkedin. Les résultats montrent qu’au-delà de 500 réactions, les posts des femmes recueillent 17,3% de réactions en plus. Des différences notables existent toutefois en fonction de la langue. Si vous n’avez que 30 secondes A l’échelle mondiale, seuls 0,5%...

Lire la suite
Pour faire le buzz sur Linkedin il vaut mieux être une femme … jeune
Mar14

Pour faire le buzz sur Linkedin il vaut mieux être une femme … jeune

L’analyse de 1118 posts Linkedin viraux montre une domination des femmes en matière de réactions (likes et commentaires). Bien que les hommes soient plus nombreux, ils recueillent en moyenne moins de réactions. Parmi ces influenceuses, on relève également une nette domination (près de 50%) des femmes de 18 à 30 ans. Cette domination s’exerce tant au niveau du nombre de profils dans cette tranche d’âge que du nombre de réactions récoltées. Dans la sphère francophone, Lenna...

Lire la suite
CBD online : Français et Anglais, tous accros ! [Etude SEO]
Fév07

CBD online : Français et Anglais, tous accros ! [Etude SEO]

Une étude SEO sur les recherches online en lien avec le CBD montre que 2 pays se partagent la première place. C’est en France et au Royaume-Uni que se concentrent le plus grand nombre de recherches par habitants. Près de 2% de la population effectuent une recherche online sur le CBD chaque mois. L’étude SEO que nous avons réalisée dans 31 pays montre en outre des différences notables en ce qui concerne les mots-clés utilisés. Ce...

Lire la suite
ETL : comparaison, critères de choix, conseils [guide 2022]
Jan26

ETL : comparaison, critères de choix, conseils [guide 2022]

ETL : Extract – Transform – Load. Ces 3 mots résument à eux seuls les fonctionnalités que les solutions logicielles qui appartiennent à cette famille doivent remplir. Un outil ETL est donc un logiciel, local ou sur le cloud, qui permet de faciliter la data preparation. Cette dernière s’attache à réaliser 3 types d’opérations sur des données : (1) les extraire à partir de fichiers de différentes natures ; (2) les transformer et les enrichir pour...

Lire la suite
Audiences Netflix : rude compétition pour les films et séries les plus vus
Déc13

Audiences Netflix : rude compétition pour les films et séries les plus vus

Netflix publie désormais ses audiences hebdomadaires sous forme d’un TOP 10 du nombre d’heures de visionnage dans le monde. Bien que Netflix ne publie que le nombre total d’heures visionnées, ces données restent malgré tout riches d’enseignement pour qui veut comprendre comment les audiences des top films et top séries de Netflix évoluent. Nous analysons dans cet article les données des films et séries Netflix les plus vus en distinguant 4 catégories : films en anglais...

Lire la suite
Dialoguer avec les morts, le futur de l’intelligence artificielle ?
Déc01

Dialoguer avec les morts, le futur de l’intelligence artificielle ?

Les deadbots sont une nouvelle application de l’intelligence artificielle. Personnellement, elle me fait peur. Les deadbots sont des chatbots qui vous permettent de converser avec des personnes décédées en en imitant les réponses. Leur développement s’inscrit dans un contexte plus global de virtualisation des relations et d’effacement des frontières entre le monde physique et le monde digital. Joshua Barbeau a parlé avec sa petite amie décédée depuis 8 ans En août 2021 les San Francisco Chronicles...

Lire la suite
On pardonne plus facilement les erreurs aux algorithmes qu’aux humains
Nov26

On pardonne plus facilement les erreurs aux algorithmes qu’aux humains

Les algorithmes ont pris le pouvoir. Ils sont chargés de prendre de plus en plus de décisions. Des décisions de plus en plus complexes qui affectent tous les pans de nos vies. Pourtant les algorithmes ne sont pas parfaits. Ils font aussi des erreurs. Alors une question se pose : pour une même erreur, pardonnons-nous plus facilement aux algorithmes qu’aux êtres humains ? Une étude de 2021 apporte un éclairage inédit sur la question et livre...

Lire la suite
Comment favoriser la découverte avec les algorithmes de recommandation
Nov22

Comment favoriser la découverte avec les algorithmes de recommandation

La conférence ReCSys 2021 sur les algorithmes de recommandation vient de se terminer. Le mode hybride n’a pas facilité les interactions mais les présentations intéressantes se sont succédé et n’auront pas manqué de susciter, çà et là, de nouvelles idées. Tel a été le cas de la keynote de Cynthia Liem (Delft University of Technology).  Cynthia a la particularité de combiner 2 talents : elle est chercheuse en informatique mais également pianiste émérite. C’est sur cette...

Lire la suite
Cloud Act et RGPD : peut-on héberger ses données dans le Cloud ?
Nov17

Cloud Act et RGPD : peut-on héberger ses données dans le Cloud ?

L’utilisation que vous faites de services dans le Cloud vous conduit-elle à enfreindre le RGPD ? Pouvez-vous stocker vos données sur AWS, Azure, … tout en respectant le RGPD ? Le Cloud Act américain sème le doute et crée une incertitude juridique dont nous avons débattu avec Me. Jérôme Tassi, avocat au barreau de Paris. Introduction Le point de départ de cet article (et de la vidéo qui l’accompagne) est une réflexion qui m’a été soumise...

Lire la suite
Le panda est l’émoji qui rapporte le plus sur Linkedin
Juin28

Le panda est l’émoji qui rapporte le plus sur Linkedin

L’analyse de 2,9 millions d’émojis sur Linkedin livre une information surprenante : le  ? est l’émoji qui susciterait le plus de réactions. Ce cas d’étude nous offre une occasion de jeter un regard critique sur les données et de comprendre l’origine d’un phénomène qui pollue Linkedin. Suivez-moi pour un exercice de data mining passionnant. Pour en savoir plus sur les facteurs qui impactent la viralité sur Linkedin, je vous invite à lire mon analyse complète ici...

Lire la suite
Les émojis les plus utilisés sur Linkedin [analyse et statistiques]
Juin21

Les émojis les plus utilisés sur Linkedin [analyse et statistiques]

Quels sont les émojis les plus utilisés sur Linkedin ? Les émojis les plus utilisés sur Linkedin varient-ils en fonction de la langue et du pays ? Dans cette analyse découvrez les statistiques exclusives sur l’utilisation des émojis sur Linkedin. Si vous êtes passionné par les statistiques sur Linkedin, ne manquez pas mes autres billets sur le sujet : statistiques sur les hashtags, les 3 facteurs qui expliquent 55% de la viralité d’un post Linkedin et...

Lire la suite
Quels sont les hashtags les plus populaires sur Linkedin ?
Juin16

Quels sont les hashtags les plus populaires sur Linkedin ?

Les hashtags sur Linkedin sont sans doute un des sujets les plus populaires au sujet de ce réseau social. Des hypothèses existent sur l’utilisation que fait l’algorithme de Linkedin des hashtags. Pourtant, j’ai démontré statistiquement ici que les hashtags n’avaient pas d’impact significatif sur la viralité des posts. Quoi qu’il en soit, le dataset dont je dispose (4,6 millions de posts) permet d’offrir un aperçu intéressant des hashtags les plus utilisés dans le monde, ainsi que...

Lire la suite
Linkedin : les sentiments exprimés et leur effet sur la viralité
Juin14

Linkedin : les sentiments exprimés et leur effet sur la viralité

Tout le monde s’accorde pour dire que le contenu des posts Linkedin est déterminant dans la probabilité qu’ils deviennent viraux. Aujourd’hui je ne vais pas répondre à la question « De quoi faut-il parler sur Linkedin ? » mais plutôt « Comment faut-il en parler ?« . J’ai utilisé un corpus de 4 millions de posts Linkedin pour mesurer les sentiments exprimés et analyser la corrélation avec leur viralité. Cette analyse fait suite à celle que j’ai publiée ici sur...

Lire la suite
Tutoriel Tableau : un diagramme radial et une carte circulaire
Juin09

Tutoriel Tableau : un diagramme radial et une carte circulaire

Comment faire un diagramme radial sous Tableau ? Comment y intégrer une carte géographique circulaire ? Dans cet article je vous guide pas à pas dans la réalisation de cette data visualisation. Introduction Pour ma prochaine étude sur les levées de fonds en Europe, j’ai voulu tester une data visualisation sous forme de diagramme radial. Pour obtenir un résultat encore plus intéressant, j’ai intégré en son centre une carte interactive circulaire. Vous trouverez 2 parties dans...

Lire la suite
Les 11 défis de la data préparation et du data wrangling
Juin07

Les 11 défis de la data préparation et du data wrangling

Les évènements de 2020 ont accéléré le basculement vers le télétravail et les relations digitales. Avec la digitalisation, une autre transformation est également en marche: la transformation analytique. Pour faire face à cette révolution des données, je trouve que les entreprises ne disposent pas forcément des bons outils quand il s’agit de préparer et d’analyser les données (c’est la data preparation ou le data wrangling). Dans cet article j’ai voulu remettre en perspective le rôle de...

Lire la suite
Data preparation : comment gagner 85% de temps de traitement
Juin02

Data preparation : comment gagner 85% de temps de traitement

Dans un article précédent j’avais réalisé un benchmark de 4 solutions ETL pour le traitement d’un fichier d’un milliard de lignes. Aujourd’hui je teste l’effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx, Tableau Prep, Talend et Anatella. Les résultats sont assez inattendus. Introduction et rappel Dans mon analyse précédente j’avais comparé la vitesse de traitement de 4 solutions de data preparation : Alteryx, Talend, Tableau Prep et Anatella....

Lire la suite
Les 3 facteurs qui déterminent 55% du succès de vos posts Linkedin
Mai31

Les 3 facteurs qui déterminent 55% du succès de vos posts Linkedin

Comprendre le fonctionnement de l’algorithme de Linkedin est une nécessité pour rester visible sur ce réseau social. Dans cet article je vous révèle les résultats d’une analyse que j’ai réalisé sur 4,599 millions de posts Linkedin dans 193 pays. Les résultats sont étonnants et mettent à mal pas mal de préconçus. Seulement 3 facteurs jouent un rôle sur la visibilité des posts Linkedin. Cet article reprend en outre les résultats des études que j’ai déjà publiées...

Lire la suite
Voici le facteur qui compte le plus pour la viralité de vos posts Linkedin
Mai28

Voici le facteur qui compte le plus pour la viralité de vos posts Linkedin

Après avoir abordé l’effet des émojis et du nombre de mots sur la viralité des posts Linkedin, il est temps de révéler LE facteur qui écrase tous les autres. Ce facteur compte pour 1/3 dans le succès de vos posts Linkedin. Vous devriez donc prendre le temps de lire les résultats de l’étude que je viens de mener sur 4,6 millions de posts Linkedin dans 193 pays. Les résultats inédits présentés ici ont été obtenus grâce...

Lire la suite
Linkedin : statistiques d’engagement par pays et par langue
Mai26

Linkedin : statistiques d’engagement par pays et par langue

Comment varie l’engagement sur Linkedin en fonction de la langue et du pays ? Au niveau mondial, 71,06% des posts Linkedin ne reçoivent aucun commentaire, et 24,39% aucun Like. L’analyse de 4,599 millions de posts Linkedin nous offre une vue objective sur les différences importantes qui existent. Les données proviennent d’un dataset mis à disposition par Linkalyze. La préparation des données a été réalisée en utilisant Anatella (Timi) et la visualisation en utilisant Tableau. Si ces...

Lire la suite
Linkedin : l’étonnant effet des émojis sur la viralité des posts
Mai25

Linkedin : l’étonnant effet des émojis sur la viralité des posts

Faut-il mettre des émojis dans vos posts Linkedin et si oui combien ? Dans l’article d’aujourd’hui je vous révèle les résultats d’une étude que j’ai menée sur 4,599 millions de posts Linkedin. Cette étude suit celles que j’ai déjà publiées sur l’impact des hashtags et du nombre de mots. Si vous voulez être les premiers à recevoir mes résultats, abonnez-vous à ma newsletter (n’oubliez pas de cliquer sur le lien de validation qui vous sera envoyé...

Lire la suite
224 mots, le nombre magique pour booster la viralité de vos posts Linkedin
Mai19

224 mots, le nombre magique pour booster la viralité de vos posts Linkedin

Le nombre de mots est un des facteurs qui détermine le succès d’un post sur Linkedin, au même titre que les hashtags. J’ai réalisé une analyse sur près de 5 millions de posts dans 100 pays qui montre une corrélation linéaire entre le nombre de mots d’un post sur Linkedin et son nombre de likes / commentaires. Les posts qui comprennent entre 224 et 227 mots sont 6x plus de chances d’obtenir plus de 100 réactions...

Lire la suite
Combien de hashtags faut-il mettre dans vos posts Linkedin ? [Etude]
Mai17

Combien de hashtags faut-il mettre dans vos posts Linkedin ? [Etude]

Combien d’hashtags faut-il mettre dans vos posts Linkedin pour en augmenter sa visibilité ? D’ailleurs, est-ce une bonne chose de mettre des hashtags et comment réagit l’algorithme de Linkedin ? J’ai analysé 4,988 millions de posts Linkedin dans plus de 100 pays et je vous apporte la réponse dans cet article. Si vous souhaitez recevoir d’autres résultats exclusifs par email, n’hésitez pas à vous abonner à ma newsletter et à me suivre sur Linkedin. Seulement pour...

Lire la suite
Data Mining : définitions, 5 outils gratuits et techniques
Mai10

Data Mining : définitions, 5 outils gratuits et techniques

Venant après le processus de collecte et de préparation des données, l’analyse des données est une étape nécessaire pour trouver un sens à un ensemble de données (le dataset). Regarder des listes de données brutes ne permet guère de construire des modèles de comportement des clients, il faut donc trouver un moyen intelligent (le « data mining » ou « exploration des données ») de passer les informations au crible. En utilisant des approches statistiques ainsi que des algorithmes, il...

Lire la suite
L’IA enrichit l’expérience des visiteurs de l’exposition Alechinsky
Avr30

L’IA enrichit l’expérience des visiteurs de l’exposition Alechinsky

Dans un contexte où la culture est sévèrement impactée par la crise du Covid, il est plus que jamais important de fidéliser les visiteurs. J’avais proposé différentes pistes de réflexions pour améliorer l’expérience client dans les musées et vous propose aujourd’hui de découvrir une initiative des Musées Royaux des Beaux-Arts de Bruxelles. Une exposition consacrée à l’artiste belge Pierre Alechinsky vient de s’ouvrir qui donne un très bel aperçu de sa pléthorique production. A cette occasion un...

Lire la suite
La place du data wrangling dans le cycle de valorisation des données
Avr19

La place du data wrangling dans le cycle de valorisation des données

Dans le monde de la data, le data wrangling est un peu le mot à la mode ces derniers temps. Nous vous en avons déjà proposé un aperçu général ici. Dans l’article d’aujourd’hui nous vous l’expliquons plus en détail et positionnons le data wrangling au sein du cycle de mise en valeur des données. Sommaire Rappel sur le data wrangling Etape 1 : l’acquisition des données Etape 2 : le stockage des données Etape 3 :...

Lire la suite