Comprendre la visualisation des données

What it is and why we use it.

Donc, qu’est-ce que la visualisation de données ?

La visualisation de données fait référence aux techniques utilisées pour communiquer des informations à partir de données par le biais d’une représentation visuelle. L’objectif principal de la visualisation des données est de distiller de grands ensembles de données sous forme de graphiques visuels afin de permettre une compréhension facile des relations complexes existant au sein des données. Elle est souvent utilisée de manière interchangeable avec des termes tels que : graphiques d’information, graphiques statistiques et visualisation d’informations.

Il s’agit de l’une des étapes du processus de la science des données mis au point par Joe Blitzstein, constituant un cadre permettant d’aborder les tâches liées à la science des données. Une fois les données collectées, traitées et modélisées, les relations doivent être visualisées afin qu’une conclusion puisse être établie.

C’est également une composante de la discipline plus vaste de l’architecture de présentation de données (Data Presentation Architecture, DPA), qui cherche à identifier, localiser, manipuler, formater et présenter les données de la manière la plus efficace possible.

L’importance de la visualisation de données ?

Selon le Forum économique mondial, le monde produit 2,5 milliards d’octets de données par jour et 90 % de l’ensemble des données ont été créées au cours des deux dernières années. Avec autant de données, il devient de plus en plus difficile de les gérer et de les comprendre. Il serait impossible pour une seule personne de parcourir les données ligne par ligne, de voir des modèles distincts et de faire des observations, d’où l’importance de la visualisation des données. La prolifération des données peut être gérée dans le cadre du processus de la science des données, incluant la visualisation des données.


Connaissance améliorée

La visualisation de données peut fournir des informations que les statistiques descriptives traditionnelles ne peuvent pas. Un exemple parfait est le Quartet d’Anscombe, créé par Francis Anscombe en 1973. L’illustration comprend quatre jeux de données différents avec une variance, une moyenne, une corrélation entre les coordonnées X et Y pratiquement identiques, ainsi que des lignes de régression linéaire. Pour autant, les modèles sont clairement différents lorsqu’ils sont tracés sur un graphique. Vous pouvez voir ci-dessous qu’un modèle de régression linéaire s’appliquerait aux graphiques un et trois, mais un modèle de régression polynomiale serait idéal pour le graphique deux. Cette illustration montre pour quelle raison il est important de visualiser les données et de ne pas se fier uniquement à des statistiques descriptives.

anscombe’s quartet

Prise de décision plus rapide

Les entreprises capables de rassembler et d’agir rapidement sur leurs données seront plus compétitives sur le marché, du fait qu’elles peuvent prendre des décisions éclairées plus rapidement que leurs concurrents. La rapidité est essentielle, et la visualisation des données aide à comprendre de grandes quantités de données en appliquant des représentations visuelles aux données. Cette couche de visualisation repose généralement sur un entrepôt de données ou un lac de données et permet aux utilisateurs de découvrir et d’explorer des données en libre-service. Cela non seulement stimule la créativité, mais réduit également la nécessité pour le service informatique d’allouer des ressources pour créer en permanence de nouveaux modèles.

Par exemple, disons qu’un analyste marketing travaillant sur 20 plateformes publicitaires et systèmes internes différents doit rapidement comprendre l’efficacité des campagnes marketing. Une méthode manuelle consiste à accéder à chaque système, à générer un rapport, à combiner les données, puis à analyser dans Excel. L’analyste devra alors examiner un essaim de métriques et d’attributs et aura des difficultés à tirer des conclusions. Toutefois, les plateformes modernes d’informatique décisionnelle (Business Intelligence, BI) connectent automatiquement les sources de données et les superposent sur des visualisations de données afin que l’analyste puisse facilement trier et décomposer les données et tirer rapidement des conclusions sur les performances marketing.


Exemple simple

Supposons que vous êtes un commerçant et que vous souhaitez comparer les ventes de vestes à celles de chaussettes au cours de l’année précédente. Il existe plus d’une façon de présenter les données et les tableaux sont l’une des méthodes les plus courantes. Voici à quoi cela ressemblerait :

Le tableau ci-dessus fait un excellent travail indiquant avec précision si cette information est nécessaire. Cependant, il est difficile de voir instantanément les tendances et l’histoire racontée par les données.

Maintenant, voici les données présentées dans une visualisation de graphique linéaire :

2 line graphs

À partir de la visualisation, il devient immédiatement évident que les ventes de chaussettes restent constantes, avec de petites pointes en décembre et en juin. En revanche, les ventes de vestes sont plus saisonnières et atteignent leur point bas en juillet. Elles s’élèvent ensuite et culminent en décembre avant de diminuer mensuellement jusqu’à juste avant l’automne. Vous pourriez obtenir cette même histoire en regardant le graphique, néanmoins cela vous prendrait beaucoup plus de temps. Imaginez que vous essayez de comprendre un tableau contenant des milliers de points de données.

La science sous-jacente à la visualisation de données

Traitement des informations

Pour comprendre la science sous-jacente à la visualisation de données, nous devons d’abord discuter de la façon dont les humains collectent et traitent les informations. En collaboration avec Amos Tversky, Daniel Kahn a conduit une recherche approfondie sur la manière dont nous formons des pensées et a conclu que nous utilisions l’une des deux méthodes suivantes :


Système I

décrit un processus de pensée rapide, automatique et inconscient. Nous utilisons cette méthode assez fréquemment dans notre vie quotidienne et pouvons accomplir les tâches suivantes :

  • Lire un texte sur une pancarte
  • Déterminer où se trouve la source d’un son
  • Résoudre 1 + 1
  • Reconnaître la différence entre les couleurs
  • Rouler à vélo

Système II

décrit une pensée lente, logique, peu fréquente et calculatrice et comprend :

  • Distinguer la différence de sens entre plusieurs signes situés côte à côte
  • Réciter votre numéro de téléphone
  • Comprendre les signaux sociaux complexes
  • Résoudre 23 x 21

Avec ces deux systèmes de pensée définis, Kahn explique pourquoi les humains ont des difficultés à penser en termes de statistiques. Il affirme que la pensée du Système I est basée sur des heuristiques et des biais pour gérer le volume de stimuli que nous rencontrons quotidiennement. Un exemple d’heuristique à l’œuvre est un juge qui envisage un cas uniquement en termes de cas historiques, malgré les nuances et les différences propres au nouveau cas. En outre, il a défini les biais suivants :

  • Ancrage

  • Une tendance à se laisser influencer par des nombres non pertinents. Par exemple, ce biais est manipulé par les négociateurs compétents qui offrent un prix inférieur (l’ancre) qu’ils espèrent obtenir et arrivent ensuite légèrement au-dessus de l’ancre.

  • Disponibilité

  • La fréquence à laquelle les événements se produisent dans notre esprit n’est pas un reflet fidèle des probabilités réelles. Il s’agit d’un raccourci mental - supposer que les événements dont on peut se souvenir sont plus susceptibles de se produire.

  • Substitution

  • Cela fait référence à notre tendance à remplacer des questions difficiles par des questions plus simples. Ce biais est également connu sous le nom de erreur de conjonction ou le « problème de Linda ». Cet exemple pose la question :

    Linda a 31 ans, elle est célibataire, franche et très brillante. Elle est diplômée de philosophie. Étudiante, elle se montrait très préoccupée par les questions de discrimination et de justice sociale, elle participait également à des manifestations antinucléaires.

    Qu’est-ce qui est le plus probable ?

    1) Linda est guichetière dans une banque.

    2) Linda est guichetière dans une banque et active dans le mouvement féministe.

    La plupart des participants à l’étude ont choisi l’option deux, même si cela enfreint la loi des probabilités. Dans leur esprit, l’option deux étant plus représentative de Linda, ils ont donc utilisé le principe de substitution pour répondre à la question.

  • Optimisme et aversion aux pertes

  • Kahn pensait qu’il s’agissait peut-être du biais le plus important que nous ayons. L’optimisme et l’aversion aux pertes nous donnent une illusion de contrôle, car nous avons tendance à composer uniquement avec la possibilité de résultats connus ayant été observés. Nous ne prenons souvent pas en compte des inconnus connus ou des résultats totalement imprévus. Notre négligence face à cette complexité explique pourquoi nous utilisons un échantillon de petite taille pour émettre de solides hypothèses concernant des résultats futurs.

  • Cadrage

  • Le cadrage fait référence au contexte dans lequel des choix sont présentés. Par exemple, plus de sujets étaient enclins à opter pour une chirurgie si celle-ci était présentée avec un taux de survie de 90 % par opposition à un taux de mortalité de 10 %.

  • Coût irrécupérable

  • Ce biais est souvent observé dans le monde de l’investissement, lorsque les investisseurs continuent d’investir dans un actif sous-performant aux perspectives médiocres, au lieu de sortir de l’investissement et d’investir dans un actif offrant des perspectives plus favorables.

Avec à l’esprit les systèmes I et II, ainsi que les biais et les heuristiques, nous devrions nous assurer que les données sont présentées de manière à communiquer correctement à notre processus de pensée du Système I. Cela permet à notre processus de pensée du Système II d’analyser les données avec précision. Notre Système I inconscient est capable de traiter environ 11 millions d’informations/seconde en comparaison de notre système conscient, qui ne peut traiter que 40 informations/seconde.

Nous devons également examiner de quelle façon chaque système utilise nos sens pour capter les informations. D’après The User Illusion (L’illusion de l’utilisateur) de Tor Norretanders, le sens visuel traite l’essentiel des informations dans les deux systèmes :

visual processing bandwidth

Puisque notre système subconscient traite plus d’informations par le biais de la vision, la visualisation de données constitue une solution parfaite pour communiquer des modèles et des informations à partir de jeux de données. Lorsque quelqu’un voit une visualisation de données, il faut moins de 500 millisecondes à l’œil et au cerveau pour traiter ce que l’on appelle les propriétés visuelles pré-attentives d’une image. Dans son ouvrage Information Visualization: Perception for Design (Visualisation des informations : perception pour conception), Colin Ware définit quatre propriétés visuelles pré-attentives :

  1. Couleur
  2. Forme
  3. Mouvement
  4. Positionnement spatial

Ces quatre composants constituent la composition de chaque visualisation de données et doivent être soigneusement pris en compte pour la présentation.

Bref historique

Types courants de visualisations de données


Séries chronologiques

  • Graphiques linéaires
  • Il s’agit des visualisations les plus fondamentales et les plus utilisées. Elles montrent un changement dans une ou plusieurs variables au fil du temps.

    line graph example

    Quand utiliser : Vous devez montrer comment une variable évolue dans le temps.

  • Graphiques de surface
  • Une variation des graphiques linéaires, de graphiques en secteurs affichent plusieurs valeurs dans une série chronologique.

    area chart example

    Quand utiliser : Vous devez afficher les changements cumulés dans plusieurs variables au cours du temps.


Classement

  • Graphiques à barres
  • Ces graphiques ressemblent à des graphiques linéaires, mais ils utilisent des barres pour représenter chaque point de données.

    bar chart example

    Quand utiliser : Les diagrammes à barres sont mieux utilisés lorsque vous devez comparer plusieurs variables dans une seule période ou une seule variable dans une série chronologique.

  • Pyramides démographiques
  • Les pyramides démographiques sont des graphiques à barres empilées illustrant le récit social complexe d’une population.

    population pyramid example

    Quand utiliser : Vous devez montrer la distribution d’une population.


Partie - Tout

  • Camemberts
  • Ceux-ci montrent les parties d’un tout sous la forme d’un camembert.

    pie chart example

    Quand utiliser : Vous souhaitez voir des parties d’un tout sur une base de pourcentage. Cependant, de nombreux experts recommandent d’utiliser plutôt d’autres formats, car il est plus difficile pour l’œil humain de comprendre les données dans ce format en raison d’un temps de traitement plus long. Beaucoup soutiennent qu’un graphique à barres ou un graphique linéaire a plus de sens.

  • Cartes proportionnelles
  • Les cartes proportionnelles permettent d’afficher des données hiérarchiques dans un format imbriqué. La taille des rectangles est proportionnelle au pourcentage de chaque catégorie.

    tree map example

    Quand utiliser : Celles-ci sont plus utiles lorsque vous souhaitez comparer des parties d’un tout et que vous avez plusieurs catégories.


Déviation

  • Graphique à barres (réel vs prévu)
  • Ceux-ci comparent une valeur prévue à la valeur réelle pour une variable donnée.

    bar chart expected vs unexpected  example

    Quand utiliser : Vous devez comparer les valeurs prévues et réelles pour une seule variable. L’exemple ci-dessus montre le nombre d’articles vendus par catégorie par rapport au nombre prévu. Vous pouvez facilement constater que les attentes pour les pulls sont inférieures à celles des autres catégories, mais que les robes et les shorts sont trop performants.

Corrélation

  • Diagrammes de dispersion
  • Les diagrammes de dispersion montrent la corrélation entre deux variables sous la forme d’un axe X et Y et des points qui représentent des points de données.

    exemple de diagramme de dispersion

    Quand utiliser : Vous souhaitez voir la corrélation entre deux variables.


Distribution des fréquences

  • Histogrammes
  • Les histogrammes indiquent le nombre de fois qu’un événement se produit dans un ensemble de données donné et se présente sous forme de graphique à barres.

    histogram example

    Quand utiliser : Vous souhaitez trouver la distribution des fréquences d’un jeu de données spécifique. Par exemple, vous souhaitez connaître la probabilité relative de vendre 300 articles par jour, en fonction des performances historiques.

  • Diagrammes en boîtes
  • Il s’agit de visualisations non paramétriques affichant une mesure de dispersion. La boîte représente les deuxième et troisième quartiles (50 %) des points de données et la ligne à l’intérieur de la boîte représente la médiane. Les deux lignes qui dépassent de la boîte sont appelées moustaches et représentent les premier et quatrième quartiles, ainsi que les valeurs minimale et maximale.

    box plot example

    Quand utiliser : Vous souhaitez voir la distribution d’un ou plusieurs jeux de données. Ceux-ci sont utilisés à la place des histogrammes lorsque l’espace doit être réduit au minimum.


Comparaison nominale

  • Graphiques à bulles
  • Les graphiques à bulles ressemblent aux diagrammes de dispersion, mais ils ajoutent davantage de fonctionnalités, car la taille et/ou la couleur de chaque bulle représente des données supplémentaires.

    bubble chart example

    Quand utiliser : Lorsque vous avez trois variables à comparer.

  • Cartes de chaleur
  • Une carte de chaleur est une représentation graphique de données dans laquelle chaque valeur individuelle est contenue dans une matrice. Les nuances représentent une quantité telle que définie par la légende.

    heatmap example

    Quand utiliser : Celles-ci sont utiles lorsque vous souhaitez analyser une variable dans une matrice de données, telle qu’une période de jours et d’heures. Les différentes nuances vous permettent de discerner rapidement les extrêmes. L’exemple ci-dessus montre les utilisateurs d’un site Web par heure et moment de la journée pendant une semaine.


Comparaison géographique

  • Carte choroplèthe
  • Les visualisations choroplèthes sont une variante des cartes de chaleur dans lesquelles un ombrage est appliqué à une carte géographique.

    chloropleth example

    Quand utiliser : Vous devez comparer un jeu de données par région géographique.

Flux

  • Diagramme de flux (Sankey)
  • Le diagramme de Sankey est un type d’organigramme dans lequel la largeur des flèches est affichée proportionnellement à la quantité du flux.

    sankey diagram  example

    Quand utiliser : Vous devez visualiser le flux d’une quantité. L’exemple ci-dessus est un exemple célèbre de l’armée de Napoléon ayant envahi la Russie au cours d’un hiver froid. L’armée commence comme une masse importante mais diminue à mesure qu’elle avance vers Moscou et fait retraite.


Relations

  • Diagramme de réseau
  • Ceux-ci affichent des relations complexes entre des entités. Il montre comment chaque entité est connectée aux autres pour former un réseau.

    network diagram  example

    Quand utiliser : Vous devez comparer les relations au sein d’un réseau. Ceux-ci sont particulièrement utiles pour les grands réseaux. Ce qui précède montre le réseau de trajectoires de vol de la compagnie Southwest airlines.

Cas d’utilisation

La visualisation de données est utilisée dans de nombreuses disciplines et influe sur notre vision du monde au quotidien. Il est de plus en plus important de pouvoir réagir et de prendre des décisions rapidement dans les entreprises et les services publics. Nous avons compilé quelques exemples d’utilisation de la visualisation de données ci-dessous.

Ventes et marketing

Selon une étude de l’agence de presse Magna, la moitié des dépenses publicitaires mondiales sera dépensée en ligne d’ici 2020. Pour cette raison, les spécialistes du marketing doivent rester au fait de la manière dont leurs propriétés Web génèrent des revenus, ainsi que de leurs sources de trafic Web. Les visualisations peuvent être utilisées pour voir facilement l’évolution du trafic au cours du temps à la suite d’efforts de marketing.

marketing data visualization

Finance

Les professionnels de la finance doivent suivre la performance de leurs choix d’investissement afin de prendre la décision d’acheter ou de vendre un actif donné. Les graphiques de visualisation en chandelier montrent l’évolution du prix au cours du temps, et le professionnel de la finance peut s’en servir pour repérer les tendances. Le haut de chaque chandelier représente le prix le plus élevé sur une période donnée et le bas représente le prix le plus bas. Dans l’exemple, les chandeliers verts indiquent quand le prix a augmenté, et le rouge, quand il a baissé. La visualisation peut communiquer le changement de prix plus facilement qu’une grille de points de données.

candlestick chart

Politique

La visualisation la plus reconnue en politique est une carte géographique montrant le parti pour lequel chaque district ou État a voté.

data visualization in politics

Logistique

Les compagnies maritimes utilisent un logiciel de visualisation pour comprendre les itinéraires de navigation mondiaux.

logistics data visualiztion

Services de santé

Les professionnels de santé utilisent des visualisations choroplèthes pour visualiser des données de santé importantes. Le tableau ci-dessous indique le taux de mortalité par maladie cardiaque par comté aux États-Unis.

heart disease mortality rate

Outils de visualisation de données

D3.js

D3.js est synonyme de Data-Driven-Documents et est une bibliothèque JavaScript pour les visualisations de données dynamiques et interactives dans les navigateurs Web. Il a été créé en 2011 et est utilisé sur de nombreux sites Web. Il fournit aux développeurs Web un ensemble d’outils permettant d’utiliser des API et graphiques SVG pour créer des visualisations sur le Web.

Excel

L’un des outils les plus utilisés, Microsoft Excel, fourni avec la plupart des ordinateurs de bureau, est une méthode standard de visualisation des données. Il est très facile pour les utilisateurs de créer des visualisations rapides, néanmoins Excel est rarement envisagé pour l’agrégation de données, la gouvernance et les rapports avancés.

Microstrategy

MicroStrategy est un leader des solutions d’analytique d’entreprise et offre des données personnalisées et régies à tous les membres d’une entreprise. Il peut gérer les mégadonnées de manière rapide et automatisée et offre la possibilité de créer des visualisations de données personnalisées prêtes à l’emploi.

FAQ

Pourquoi utilisons-nous la visualisation de données ?
Quels sont les avantages de la visualisation de données ?
Qu’est-ce que l’analyse et la visualisation des données ?
Quel est le but de l’utilisation d’un tableau de bord pour la visualisation des données ?
Pourquoi la visualisation des données est-elle aussi importante ?
Qu’est-ce que la présentation de données ?