Aller au contenu

Bagplot

Un article de Wikipédia, l'encyclopédie libre.
Exemple de bagplot créé en langage R.

Un bagplot[1],[2] est une méthode de statistiques robustes permettant de visualiser des données statistiques bidimensionnelles ou tridimensionnelles, analogue à la boîte à moustaches unidimensionnelle classique. Introduit en 1999 par Rousseuw et al., le bagplot permet de visualiser l'emplacement, la dispersion, l'asymétrie et les valeurs aberrantes d'un ensemble de données[3].

Construction

[modifier | modifier le code]

Le bagplot se compose de trois polygones imbriqués, appelés le « sac », la « clôture » et la « boucle ».

Le polygone intérieur, appelé le sac, est construit grâce à la profondeur de Tukey, le plus petit nombre d'observations qui peuvent être contenues par un demi-plan passant également par un point donné[4]. Il contient au plus 50 % des points de données

Le polygone le plus extérieur des trois, appelé clôture, n'est pas dessiné dans le cadre du bagplot, mais est utilisé pour le construire. Il est formé en gonflant le sac d'un certain facteur (généralement 3). Les observations en dehors de la clôture sont signalées comme des valeurs aberrantes[5].

Les observations qui ne sont pas marquées comme aberrantes sont entourées d'une boucle, l'enveloppe convexe des observations à l'intérieur de la clôture[6].

Un symbole astérisque (*) près du centre du graphique est utilisé pour marquer la médiane de Tukey, le point de profondeur de Tukey la plus élevée possible. Les observations entre le sac et la clôture sont marquées par des segments de ligne, sur une ligne jusqu'à la médiane de profondeur, les reliant au sac.La version tridimensionnelle se compose d'un sac intérieur et extérieur[7]. Le sac extérieur doit être représenté avec transparence afin que le sac intérieur reste visible.

Propriétés

[modifier | modifier le code]

Le bagplot est invariant par transformations affines du plan et robuste contre les valeurs aberrantes[8].

Références

[modifier | modifier le code]
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Bagplot » (voir la liste des auteurs).
  1. (en) Peter J. Rousseeuw, I. Ruts et John W. Tukey, « The Bagplot: A Bivariate Boxplot », The American Statistician, vol. 53, no 4,‎ , p. 382–387 (DOI 10.1080/00031305.1999.10474494).
  2. (en) Ronald K. Pearson, Mining Imperfect Data: Dealing with Contamination and Incomplete Records, SIAM, , 204– (ISBN 978-0-89871-582-8, lire en ligne).
  3. (en) Dominique Haughton et Jonathan Haughton, Living Standards Analytics: Development through the Lens of Household Survey Data, Springer, , 14– (ISBN 978-1-4614-0385-2, lire en ligne).
  4. (en) Sophie Dabo-Niang et Frédéric Ferraty, Functional and Operatorial Statistics, Springer, , 204– (ISBN 978-3-7908-2062-1, lire en ligne).
  5. (en) John C. Gower, Sugnet Gardner Lubbe et Niel J. Le Roux, Understanding Biplots, John Wiley & Sons, , 59– (ISBN 978-1-119-97290-7, lire en ligne).
  6. (en) Prabhanjan Narayanachar Tattar, R Statistical Application Development by Example Beginner's Guide, Packt Publishing Ltd, , 203– (ISBN 978-1-84951-945-8, lire en ligne).
  7. (en) Jochen J. Kruppa et K. Jung, « Automated multigroup outlier identification in molecular high-throughput data using bagplots and gemplots », BMC Bioinformatics, vol. 18,‎ , p. 232 (PMID 28464790, PMCID 5414140, DOI 10.1186/s12859-017-1645-5).
  8. (en) Rajeev Raman, Robert Sedgewick et Matthias F. Stallmann, Proceedings of the Eighth Workshop on Algorithm Engineering and Experiments and the Third Workshop on Analytic Algorithmics and Combinatorics, SIAM, , 62– (ISBN 978-0-89871-610-8, lire en ligne).