En santé publique comme en épidémiologie, on recueille souvent beaucoup de données : les âges des patients d’un service, les durées d’hospitalisation, les IMC d’une population. Les statistiques descriptives servent à les résumer par quelques nombres bien choisis : des indicateurs de position qui disent où se situe le centre de la série, et des indicateurs de dispersion qui disent à quel point les valeurs sont étalées.
Ce que tu sauras faire
- Je sais calculer une moyenne simple et une moyenne pondérée.
- Je sais déterminer la médiane, le premier quartile Q1 et le troisième quartile Q3 par la méthode des rangs.
- Je sais calculer l’étendue et l’écart interquartile Q3−Q1, et lire l’écart-type à la calculatrice.
- Je sais construire et lire un diagramme en boîte, et comparer deux séries en contexte santé-social.
À quoi ça sert ?
Imagine que tu travailles dans un service hospitalier. À la fin du mois, tu as l’âge de chaque patient admis et le nombre de jours passé par chacun à l’hôpital. Tu ne peux pas raisonner sur toute la liste : tu as besoin de résumés. La moyenne te donne le niveau global ; la médiane te donne le patient « central » sans te laisser tromper par un séjour exceptionnellement long ; l’écart-type te dit si les durées de séjour sont régulières ou très inégales. Ces indicateurs sont le langage de base de l’épidémiologie, de la veille sanitaire et des études de population.
Indicateurs de position
Moyenne (simple et pondérée)
La moyenne d’une série de valeurs xi affectées des effectifs ni est :
xˉ=∑ni∑nixi
On multiplie chaque valeur par son effectif, on additionne tous les produits, puis on divise par l’effectif total N=∑ni. Si chaque valeur n’apparaît qu’une seule fois, on retrouve la moyenne simple xˉ=Nx1+x2+⋯+xN.
Calculer une moyenne pondérée
- Multiplier chaque valeur xi par son effectif ni.
- Additionner tous ces produits : on obtient ∑nixi.
- Diviser par la somme des effectifs ∑ni, jamais par le nombre de valeurs distinctes.
Les effectifs jouent le rôle de poids : un âge partagé par beaucoup de patients pèse davantage dans la moyenne.
Âge moyen d'un groupe de patients
Dans un service, l’âge de 10 patients (en années) est : 52; 58; 61; 63; 65; 67; 70; 72; 78; 84. La somme vaut 52+58+61+63+65+67+70+72+78+84=670. L’âge moyen est donc xˉ=10670=67 ans.
Médiane
La médiane M partage la série rangée dans l’ordre croissant en deux moitiés de même effectif : au moins la moitié des données lui sont inférieures ou égales, et au moins la moitié lui sont supérieures ou égales. On range toujours la série avant de la chercher.
Trouver la médiane (méthode des rangs)
- Ranger la série dans l’ordre croissant et compter l’effectif total n.
- Si n est impair : la médiane est la valeur de rang 2n+1 (la valeur du milieu).
- Si n est pair : la médiane est la demi-somme des valeurs de rangs 2n et 2n+1 (les deux valeurs centrales).
Premier et troisième quartiles
Le premier quartile Q1 est la plus petite valeur de la série telle qu’au moins 25% des données lui sont inférieures ou égales. Le troisième quartile Q3 est la plus petite valeur telle qu’au moins 75% des données lui sont inférieures ou égales. Entre Q1 et Q3 se trouve donc la moitié centrale de la série.
Déterminer Q1 et Q3 (méthode des rangs)
- Ranger la série dans l’ordre croissant et compter l’effectif total n.
- Rang de Q1 : le plus petit entier supérieur ou égal à 4n.
- Rang de Q3 : le plus petit entier supérieur ou égal à 43n.
Quand le quotient n’est pas entier, on arrondit à l’entier supérieur (par exemple un rang de 3,25 donne le 4e terme). Quand il est entier, on garde ce rang.
Indicateurs de dispersion
Écart-type (à la calculatrice)
L’écart-type, noté σ, mesure la dispersion des valeurs autour de la moyenne : plus il est petit, plus les valeurs sont resserrées autour de xˉ ; plus il est grand, plus elles sont dispersées. En ST2S, on le lit directement à la calculatrice en mode statistiques (touche σx), après avoir saisi les valeurs et leurs effectifs.
Obtenir moyenne et écart-type à la calculatrice
- Entrer en mode statistiques (menu STAT ou STATS).
- Saisir les valeurs xi dans une liste et leurs effectifs ni dans une autre.
- Lancer le calcul des statistiques à une variable : la calculatrice affiche xˉ (moyenne) et σx (écart-type).
- Vérifier que l’effectif total n affiché correspond bien à la somme attendue.
Diagramme en boîte
Diagramme en boîte
Le diagramme en boîte (ou boîte à moustaches) résume une série par cinq nombres : le minimum xmin, le premier quartile Q1, la médiane M, le troisième quartile Q3 et le maximum xmax. La boîte s’étend de Q1 à Q3 (elle contient la moitié centrale des données), une barre marque la médiane à l’intérieur, et deux moustaches rejoignent le minimum et le maximum.
Construire un diagramme en boîte
- Calculer les cinq nombres : xmin, Q1, M, Q3, xmax.
- Tracer un axe gradué adapté à la série.
- Dessiner la boîte de Q1 à Q3 et tracer le trait de la médiane M à l’intérieur.
- Prolonger par deux moustaches jusqu’à xmin et xmax.
Lire un diagramme en boîte (durées d'hospitalisation)
Pour les durées de séjour (en jours) dans un service, on lit sur le diagramme : xmin=1, Q1=3, M=5, Q3=8, xmax=21. On en déduit : l’étendue vaut 21−1=20 jours, l’écart interquartile vaut 8−3=5 jours. La moustache de droite est très longue : la moitié centrale des patients reste entre 3 et 8 jours, mais quelques séjours exceptionnellement longs (jusqu’à 21 jours) tirent l’étendue vers le haut.
Comparer deux séries
Comparer position et dispersion
Pour comparer deux populations (deux services, deux années, deux groupes de patients), on regarde deux choses à la fois :
- la position (moyenne ou médiane) : quelle série a le centre le plus élevé ?
- la dispersion (écart interquartile ou écart-type) : quelle série est la plus régulière ?
À position égale, la série dont la dispersion est la plus faible est la plus homogène (valeurs proches les unes des autres). La position seule ne suffit jamais : il faut aussi la dispersion.
Les pièges classiques
- FAUX : diviser une moyenne pondérée par le nombre de valeurs distinctes. VRAI : on divise par la somme des effectifs ∑ni.
- FAUX : chercher la médiane ou les quartiles sur une série non triée. VRAI : on range d’abord dans l’ordre croissant.
- FAUX : pour un rang non entier, arrondir à l’entier le plus proche. VRAI : pour Q1 et Q3, on arrondit toujours à l’entier supérieur.
- FAUX : confondre étendue et écart interquartile. VRAI : l’étendue est xmax−xmin ; l’écart interquartile est Q3−Q1 (la moitié centrale seulement).
- FAUX : décrire une population avec la seule moyenne. VRAI : la moyenne peut cacher une forte dispersion ou être tirée par une valeur extrême ; on l’accompagne toujours d’un indicateur de dispersion (et souvent de la médiane).