Language

[Replay] Aider les métiers à consommer les données : data marketplace ou data catalog ?

Voir le replay
Glossaire

Box plot (boîte à moustaches)

Un diagramme en “boîte à moustaches” ou box plot est une représentation graphique standardisée qui permet de visualiser la distribution d'un ensemble de groupes de données afin d'en effectuer une analyse plus approfondie.

Qu’est-ce qu’un box plot ou diagramme en boîte à moustaches ?

Un box plot est une représentation graphique de données statistiques qui permet de visualiser aisément la répartition de plusieurs ensembles de données. Il permet d’afficher cinq valeurs différentes – le minimum, le premier quartile, la médiane, le troisième quartile et le maximum – dans une seule forme de boîte pour chaque groupe. Un diagramme en boîte facilite donc la visualisation et la compréhension de la dispersion des données collectées et de leur distribution, ainsi que la comparaison entre les groupes.

Il peut également être utilisé pour montrer la variabilité au-delà de la dispersion normale des quartiles supérieur et inférieur grâce à des lignes (appelées moustaches) qui s’étendent à partir de la boîte, d’où ses noms alternatifs de diagramme en boîte et moustaches. Des valeurs aberrantes supplémentaires peuvent être affichées sous forme de points sur le graphique.

La forme du diagramme en boîte montre comment les données sont distribuées et toute valeur aberrante. C’est un moyen utile de comparer différents ensembles de données, car on peut dessiner plusieurs diagrammes en boîte par graphique.

Les diagrammes en boîte peuvent être alignés avec les boîtes placées verticalement (avec les groupes sur l’axe horizontal) ou horizontalement (avec les groupes alignés verticalement). Orienter les boîtes horizontalement est utile lorsqu’il y a beaucoup de groupes à tracer, ou si les noms de ces groupes sont longs, car ils n’ont pas besoin d’être abrégés. Orienter les boîtes verticalement fonctionne bien pour d’autres types de données, comme par exemple lorsque la variable de regroupement est basée sur des unités de temps.

Pourquoi utilise-t-on un box plot ?

Les box plot sont utilisés pour avoir un aperçu des informations de haut niveau sur un groupe de données, montrant sa symétrie, son asymétrie, sa variance et toute valeur aberrante. Il est aisé de voir où se situe la majorité des données, et les diagrammes en boîte sont plus simples à comprendre qu’un graphique en ligne lorsqu’il y a une grande variabilité dans l’ensemble de données. Les diagrammes en boîte permettent également la comparaison de plusieurs groupes de données, sur le même graphique et en utilisant la même échelle.

Cependant, la simplicité d’un diagramme en boîte implique des limitations quant à la densité des données qu’il représente Il n’est pas possible de voir la forme détaillée d’une distribution ou de repérer des pics ou des creux spécifiques.

Comment créer des diagrammes en boîte à moustaches ?

La création d’un diagramme en boîte est un processus standardisé :

Analyser vos données

Disposez vos données dans l’ordre numérique, du plus bas au plus élevé. Puis analysez-les pour identifier 5 grand ensembles numériques :

  • Le minimum (Q0 ou 0e centile) : le point de données le plus bas dans l’ensemble de données, à l’exclusion de toute valeur aberrante.
  • Le maximum (Q4 ou 100e centile) : le point de données le plus élevé dans l’ensemble de données, à l’exclusion de toute valeur aberrante.
  • La médiane (Q2 ou 50e centile) : la valeur centrale de l’ensemble de données.
  • Le premier quartile (Q1 ou 25e centile) : également connu sous le nom de quartile inférieur. C’est la médiane de la moitié inférieure de l’ensemble de données.
  • Le troisième quartile (Q3 ou 75e centile) : également connu sous le nom de quartile supérieur. C’est la médiane de la moitié supérieure de l’ensemble de données.

Créer votre graphique

Commencez par dessiner le graphique en créant un axe pertinent, étiqueté et gradué (soit vertical, soit horizontal). En vous basant sur le résumé à cinq nombres, dessinez ensuite une boîte qui s’étend du premier quartile au troisième quartile. Cela indique la plage des 50 % centraux des données. Ajoutez une ligne centrale à la boîte qui montre la médiane au milieu de la boîte.

Après cela, dessinez des lignes (ou moustaches) de chaque côté de la boîte pour montrer les valeurs minimum et maximum, à l’exclusion de toute valeur aberrante. Enfin, tracez les valeurs aberrantes au-delà des plages normales avec des points.

 

Découvrez dans notre Ebook comment partager vos données à travers un portail de données.

En savoir plus
Solutions de data visualisation : encourager le partage de vos tableaux de bord Data intelligence et reporting
Solutions de data visualisation : encourager le partage de vos tableaux de bord

Quelles sont les solutions existantes qui s’offrent aux grandes entreprises ou organisations du secteur public ? Permettent-elles vraiment de valoriser la donnée et de prendre des décisions data-driven pour construire des organisations véritablement data-centric ? Découvrez les réponses.

Quel dashboard pour améliorer la prise de décision dans votre organisation ? Data intelligence et reporting
Quel dashboard pour améliorer la prise de décision dans votre organisation ?

Quels sont les nombreux avantages et les possibles usages des dashboards de données ? Comment construire les meilleurs tableaux de bord de données pour votre organisation ? Découvrez les réponses dans cet article.

Comment créer de nouvelles sources de revenus avec vos données grâce aux offres Dashboards as a Service ? Services data
Comment créer de nouvelles sources de revenus avec vos données grâce aux offres Dashboards as a Service ?

Dans cet article, nous nous intéressons plus particulièrement aux Dashboards as a Service, ces offres de services data digitaux qui se multiplient ces dernières années et qui génèrent de nombreux bénéfices pour les organisations qui les mettent en place et dans leurs écosystèmes.

Commencez à créer vos expériences data