Colloques du Groupement
des Anthropologistes de Langue Française (GALF)
Buchet, L., Caussinus, H., Courgeau, D., Séguy,
I., 2012, Estimation de l’âge en l’absence d’état civil: une
nouvelle méthode bayésienne et son application à la paléodémographie.
Antropo, 27, 1-8. www.didac.ehu.es/antropo
Estimation
de l’âge en l’absence d’état civil: une nouvelle méthode bayésienne et son
application à la paléodémographie
Estimating age without vital statistics: a new
Bayesian method and its application to paleodemography
Luc Buchet1,2,
Henri Caussinus3, Daniel Courgeau2, Isabelle Séguy2,1
1 CEPAM (UMR
6130, Université de Nice Sophia-Antipolis-CNRS
2 Institut
National d’Etudes Démographiques, Paris
3 Institut de
Mathématiques, Université Paul Sabatier, Toulouse)
Correspondance: seguy@ined.fr
Mots
clés: Indicateurs d’âge, méthodes
bayésiennes, paléodémographie, loi de mortalité.
Key words: Age indicators, Bayesian methods,
paleodemography, mortality models.
Résumé
Pour estimer l’âge dans des
populations sans état civil, on recourt le plus souvent à des indicateurs
biologiques d’âge qui portent la trace du stade de croissance ou de
vieillissement atteint par l’individu au moment de son observation (en
démographie anthropologique) ou de son décès (en paléodémographie).
Les paléodémographes ont
développé un certain nombre de méthodes pour contourner le problème statistique
que pose la mauvaise corrélation de l’âge biologique avec l’âge donné par
l’état civil. Ils s’appuient sur une population de référence pour laquelle
indicateurs biologiques et âges au décès sont connus, ce qui fournit une
information sur la distribution d’un indicateur conditionnellement à l’âge au
décès, information qui s’ajoute à celle fournie par le ou les indicateur(s)
mesuré(s) sur un échantillon (souvent de petite taille). Le problème
statistique qui en résulte est relativement simple mais s’avère très instable
en pratique et nécessite donc une attention particulière.
Nous présentons ici une
nouvelle méthode statistique, fondée sur une approche bayésienne, qui permet
une estimation plus précise et mieux assurée de la structure par âges de la
population. Nous présentons et discutons les résultats obtenus lorsque cette
méthode est appliquée à un ensemble bien documenté de squelettes.
Abstract
To estimate age in populations without vital
statistics, researchers use biological indicators. Biological growth indicators
for immature individuals, or ageing for adults, measure the age reached at the
moment of observation (in anthropological demography) or at death (in
paleodemography).
Paleodemographers have developed several methods to
overcome the statistical difficulty resulting from the loose relationship
between age and biological indicator(s). They use a reference database where
biological indicators and age are known for each individual; so, they have not
only the information given by the indicator(s) measured on the sample (often
small), but also an information on the conditional distribution of indicator(s)
at a given age. As described, the statistical problem is theoretically simple but, in
practice, it suffers from a high instability and requires special attention. In
this paper, we present a new statistical method, based on the Bayesian approach,
which provides a more reliable estimate of the age distribution at death than
previous methods. We describe and discuss the results when this method is
applied to a well documented osteological dataset.
Les
comportements démographiques des populations, à partir desquels les démographes
dégagent des lois et des tendances, dépendent étroitement de la variable temps,
tant au niveau du calendrier que dans la durée que mesure l’âge des individus
au moment des principaux événements observés (mariage, migration, naissances
des enfants, divorce et mort). La nécessité de disposer de l’âge des individus
en observation justifie les très nombreux travaux relatifs à sa mesure ou à son
estimation lorsqu’on ne dispose pas de données d’état civil. Pour ce faire, on
recourt le plus souvent à des indicateurs biologiques d’âge qui portent la
trace du stade de croissance ou de vieillissement atteint par l’individu au
moment de son observation (en démographie anthropologique) ou de son décès (en
paléodémographie et en médecine légale).
Toutes
les méthodes d’estimation de l’âge disponibles actuellement ont été mises au
point sur des ensembles de squelettes des XIX et XXe siècles dont le sexe et l'âge
au décès sont connus, retenus comme "populations de référence". Les
critères morphologiques reconnus comme discriminants dans la population de
référence sont ensuite utilisés sur des séries anciennes. Ces méthodes
postulent donc que les paramètres biologiques utilisés sont constants -ou
varient peu- dans le temps. C’est sur l’hypothèse d’uniformité biologique
(Howell, 1976), invoquant la non variabilité des phénomènes biologiques au
cours du temps, que se fondent la plupart des méthodes anthropologiques et tout
particulièrement les estimations d’âge à partir de critères biologiques.
Elle
postule, en effet, que
1) les
processus biologiques relatifs à la mortalité et à la fécondité des hommes du
passé étaient semblables à ceux observés aujourd’hui par les
démographes-anthropologues;
2) le
développement biologique s’inscrit dans un cadre chronologique commun à toutes
les populations, quels que soient les lieux et les époques.
Ces deux
postulats sont vivement débattus depuis une quinzaine d’années au sein de la
communauté scientifique. Il apparaît, sans que l’on puisse, ni la mesurer
correctement, ni être certain de la linéarité de la tendance, que les processus
de croissance varient dans le temps et dans l’espace. Sur le temps court
(quelques générations), on a pu mesurer l’évolution de plusieurs processus
biologiques, tels qu’une modification de l’ordre des poussées dentaires, un âge
moyen de la puberté plus précoce (Biraben, 1982; De La Rochebrochard, 1999) ou
une accélération des processus de croissance en relation avec l’amélioration
récente des conditions de vie (Hoppa, 2000; Piontek et al., 2001). Lorsqu’on applique ces référentiels très modernes à
des populations du passé, voire des périodes pré- et protohistoriques, on ne
peut pas exclure la possibilité d’une dérive séculaire des indicateurs
biologiques d’âge. Faute de pouvoir la mesurer, les anthropologues en sont
venus à la négliger, tout en espérant que les éventuelles divergences ne soient
pas trop profondes car, si le processus de croissance ou de sénescence
n’intervient pas à la même vitesse dans la population archéologique que dans la
population de référence, les âges estimés risquent d’être très éloignés des
âges «vrais».
Par ailleurs, les variations observées d’un
individu à l’autre dans les processus de croissance et de sénescence entraînent
une médiocre corrélation statistique entre l'âge estimé par des indicateurs
biologiques et l'âge réel. Ce constat s’applique quel que soit l’indicateur
biologique utilisé et quel que soit le nombre d’indicateurs d’âges retenus par
les méthodes multicritères (cf.
Manuel de paléodémographie, 2011). Toute estimation de l’âge
individuel s’inscrit donc dans une fourchette, plus ou moins large et dans une
marge d’incertitude non mesurable, entre l’âge réel au décès et son âge estimé. De ce fait, aucune méthode n’est suffisamment précise pour être utilisée
telle quelle dans une approche démographique des populations du passé.
En
effet, la paléodémographie, comme la démographie, doit prendre en compte tous
les individus, avec comme objectif la
reconstitution des structures démographiques de la population. Dans ce cas,
comment tenir compte de la marge d'erreur associée à chaque estimation? La négliger, en pensant que les erreurs en
plus ou en moins s'annulent entre elles, conduit à surestimer les individus
d’âge moyen au détriment des plus âgés et des plus jeunes; ceci explique, par
exemple, l'absence de vieillards dans les études paléodémographiques anciennes
fondées sur un ensemble d’âges individuels moyens estimés (fig. 1).
Figure 1.
Si on se fie aux âges moyens, la population adulte se distribue entre 30 et 60
ans, et non entre 16 et 74 ans comme l’indique la marge d’erreur associée à
chaque âge (d’après Buchet, 2005).
Pour
résoudre cette question, certains chercheurs, notamment C. Masset et J.-P.
Bocquet-Appel en France, se sont engagés dans une autre voie: l’estimation de
la distribution par âges au décès d’un ensemble d’inhumés dans une approche
probabiliste. Claude Masset (1982) a présenté une méthode statistique, dite
méthode des "vecteurs de probabilités", permettant de répartir
l’ensemble de la population adulte inhumée, non pas en additionnant les âges
individuels des sujets, mais selon la distribution probable par groupes d'âges
de l’ensemble des individus inhumés. A
partir d’une collection de référence, dont les effectifs par groupes d’âges ont
été artificiellement égalisés (« standardisés »), pour éviter l’influence de la
structure de la population de référence, Claude Masset a établi des matrices de
fréquence permettant de relier les observations biologiques (regroupées en
stades, gradués de I à VII) à l’ensemble des groupes d’âges dans lequel ce
stade est observé.
Figure 2.
Exemple de matrice de fréquences (ou vecteurs de probabilités) établie selon le
principe défini par C. Masset, où l’âge est fonction du stade (d’après Séguy,
Buchet, 2011).
Ces
matrices, appelées “vecteurs de probabilités ” dans les études
paléodémographiques françaises, prennent en compte les probabilités, pour
chaque squelette, d’appartenir à chacun des groupes d’âges retenus (fig. 2), en
fonction de son degré de synostose crânienne.
L’indicateur
biologique d’âge retenu par C. Masset, et par nous-mêmes, est le degré de
synostose exocrânienne de chaque individu; cependant l’approche matricielle
peut être appliquée à n’importe quel autre indicateur d’âge. Elle a d’ailleurs
fait l’objet d’adaptations par C. Bergot et J.-P. Bocquet-Appel (1976) qui ont
utilisé les têtes fémorales et humérales, par F. Langenscheidt (1985) avec
la symphyse pubienne et par C. Theureau (1998) qui l’a appliquée à quatre
indicateurs d’âges (synostose des sutures endocrâniennes, modifications de la
symphyse pubienne, degré de minéralisation des extrémités proximales du fémur
et de l'humérus).
D’un
point de vue mathématique, l’approche matricielle utilisée dans l’estimation
d’un âge au décès « collectif » n’est pas soumise à l’influence de la
structure de la population de référence, puisqu’il s’agit des fréquences
observées par groupes d’âges. Cependant, dans la mise en pratique, la loi
statistique se heurte au double problème
du petit nombre d’individus observés dans les collections de comparaison
(voir l’inventaire proposé par Usher, 2002) et du nombre encore plus faible de
squelettes archéologiques auxquels ces calculs s’appliquent. Cette méthode (ALK
- Age Length Key- pour Konigsberg et
Frankenberg, 1992; méthode des vecteurs de probabilités pour Claude Masset,
1971, 1982) suppose que les probabilités sont correctement estimées par les
fréquences, tant dans la population de référence que dans la population
observée. Toutefois, comme les effectifs de squelettes sont
très souvent faibles, ces hypothèses ne tiennent pas. Sans corrections
appropriées mais qui introduisent des pré-supposés, les estimations qui en
résultent risquent fort d’être incorrectes.
Par
ailleurs, et surtout, la distribution calculée dépend fortement de la
distribution des âges dans la population de référence, puisque la méthode
consiste à calculer chaque cellule de la matrice estimée de sorte qu’elle soit
la plus proche possible de chaque cellule de la matrice de référence. En fait
cette méthode ne tient pas compte, en particulier, de l’hypothèse d’uniformité
biologique (Howell, 1976), encore appelée hypothèse d’invariance (Müller et al., 2002), selon laquelle, pour tout
reste osseux ou dentaire d’âge au décès donné, la probabilité pour qu’il soit
classé dans un stade biologique donné ne dépend que de cet âge, indépendamment
de la population d’où il a été extrait (fig. 3).
Ce
schéma illustre clairement la différence d’approche entre la méthode des
vecteurs de probabilités (qui part des régressions définies en B) et celles
proposées ici, ou encore par Bocquet-Appel et Bacro (2008), qui partent des régressions définies en A.
Figure 3.
Influence de la structure de la population de référence sur la structure de la
population étudiée (d’après C. Masset, 1982, page 23). A1 et A2 = droites de
régression des sutures en fonction de l’âge. Elles varient peu d’une population
observée à une autre (phénomène d’uniformité biologique). B1 et B2 = droites de
régression de l’âge en fonction des sutures. Elles dépendent de la composition
par âges au décès de la population de référence qui a été utilisée pour mettre
au point la méthode d’estimation de l’âge.
L’intérêt
de la recherche en paléodémographie est d’estimer Pr(a/c) la probabilité pour
que tels restes humains soient ceux d’une personne décédée à l’âge a, pour une observation donnée des
caractéristiques biologiques du squelette, l’indicateur c. La probabilité Pr(a/c)
n’est pas identique à Pr(c/a) qui peut être estimée directement en s’appuyant
sur la collection de référence. Mais on peut passer de l’une à l’autre de ces
probabilités conditionnelles en utilisant l’information fournie par les données
d’un site sur la loi de probabilité de l’indicateur c dans ce site. L’important
est que cela soit fait en utilisant la seule hypothèse d’uniformité biologique,
c’est-à-dire en lisant la matrice de référence exclusivement « en valeurs
relatives par colonnes » (fig. 4).
Figure 4.
Exemple de matrice de référence où le stade est fonction de l’âge (d’après
Séguy, Buchet, 2011).
Les
fréquences des données issues de la population de référence et les fréquences
des données issues de la population observée sont des échantillons,
observations de variables aléatoires dont la loi de probabilité dépend de
paramètres inconnus (probabilités conditionnelles de référence P(c/a) et
probabilités des âges P(a)). Dans une approche bayésienne, ces paramètres sont
eux aussi considérés comme aléatoires, avec une loi dite a priori que l’analyste fixe pour prendre en compte ses
connaissances préalables ou, au contraire, sa totale ignorance. Cette loi est
ensuite révisée en fonction des données recueillies sur le site: c’est la loi
conditionnelle aux caractéristiques biologiques observées, dite loi a posteriori. Pour la probabilité P(a)
de chaque tranche d’âge, on obtient ainsi une distribution; celle-ci permet, en
particulier, de donner une estimation de la probabilité de cette tranche d’âge
sur le site étudié en considérant une tendance centrale de cette loi (nous
prendrons ici la moyenne), mais elle permet aussi d’apprécier la précision de
cette estimation en considérant sa dispersion.
Un point
crucial est le choix des lois a priori.
Pour les probabilités conditionnelles du stade c connaissant l’âge a
(P(c/a)), la seule information disponible est celle contenue dans la population
de référence; nous l’utilisons de la façon la plus standard en statistique
bayésienne pour proposer la loi a priori
de ces paramètres. Pour les proportions P(a) des diverses classe d’âge, on a au
moins une information a priori: il
s’agit d’une loi de mortalité à une époque préindustrielle; cette information
conduit à prendre une loi a priori
dont la moyenne pour chaque âge est celle du standard préindustriel; si d’autres informations sont disponibles,
comme dans le cas de l’exemple traité plus loin, elles peuvent être introduites
à ce niveau. Un peu de mathématique
permet de calculer formellement la loi a
posteriori des P(a) et les calculs numériques peuvent être menés par
simulation (voir Caussinus et Courgeau, 2010). En particulier, pour chaque âge
a, la moyenne a posteriori fournit
une estimation ponctuelle de P(a) et les quantiles a posteriori fourniront des « intervalles de
crédibilité », version bayésienne des « intervalles de
confiance ».
Un
programme informatique en langage R d’ «Estimation de la loi de probabilité de
l’âge au décès» est disponible sur Cd-Rom (Séguy, Buchet, 2011) ou sur simple
demande.
Nous
présentons brièvement une application de cette méthode.
Cette
méthode a été appliquée au cimetière de moniales de Maubuisson (France, Val d’Oise, XVIIe-XVIIIe
siècles). L’échantillon anthropologique est de taille très modeste (37
squelettes étudiables, sur une population inhumée de 162 moniales) mais très
bien documenté archéologiquement et historiquement (conditions de vie et mortalité
par âges). Cet exemple a été retenu car des registres du couvent permettent
d’évaluer la distribution effective des âges au décès, même si une certaine
prudence est de mise compte tenu du fait que le petit échantillon considéré
peut être biaisé par rapport à l’ensemble des moniales envisagées dans les
registres.
Sans
reprendre ici la démonstration déjà faite (Caussinus, Courgeau, 2010), nous
pouvons en rappeler les principaux enseignements.
–
Le fait qu’il s’agisse de religieuses de haute noblesse informe sur le fait
que, lors de leur admission, ces femmes sont certainement en meilleure santé
que la moyenne de la population; par la suite, elles sont préservées de
plusieurs risques importants de mortalité, en particulier de la mortalité en
couche. Ces éléments peuvent être intégrés dans les paramètres définissant les
lois de probabilité a priori des
classes d’âges: nous avons légèrement modifié le standard préindustriel en ce
sens.
–
Comme illustré dans la figure 5 les probabilités de décès par âges, estimées
par les moyennes a posteriori, sont
très proches des valeurs données par les registres de décès.
- Les
intervalles de crédibilité, assez larges après 50 ans, traduisent
l’impossibilité d’avoir des estimations très précises avec un échantillon aussi
petit.
- Par
rapport à une loi a priori
correspondant au « standard préindustriel », la prise en compte des
spécificités biodémographiques des religieuses permet de proposer des
estimations beaucoup plus proches de la distribution des décès observée à partir
des sources écrites. Par ailleurs, si l’on considère les deux premières
tranches d’âges, pour lesquelles les proportions de décès sont étonnamment
faibles, les moyennes a posteriori révisent fortement à la
baisse les moyennes a priori, qu’il
s’agisse du standard préindustriel ou du standard préindustriel modifié; au
delà des quantités estimées, on a là une information qualitative importante qui
vient confirmer la bonne santé des jeunes nonnes et suggère même que ces
estimations restent vraisemblablement pessimistes.
Figure 5.
Exemple de Maubuisson: Estimations des probabilités par la moyenne a posteriori
et quantiles donnant les intervalles de crédibilité à 90 % et à 50% (loi a
priori: standard préindustriel modifié) (d’après Caussinus, Courgeau, Population, 2010, 1, p. 136).
Les
méthodes antérieures (ALK, IALK) sont souvent qualifiées du terme bayésien par
les paléodémographes, parce qu’elles utilisent le théorème de Bayes et parce
qu’elles introduisent des considérations a
priori dans leur méthode d’estimation, mais le paradigme sur lequel elles
se fondent est, en fait, de nature fréquentiste. Notre nouvelle approche est,
au contraire, strictement bayésienne, au sens couramment donné à ce terme en
statistique. Elle considère comme aléatoires, aussi bien les fréquences
observées (population de référence et site à l’étude) que les paramètres
inconnus. Dans ce problème de nature particulièrement instable et aux tailles
d’échantillon faibles, cette façon de voir s’avère plus efficace que les
méthodes d’estimation de l’âge en l’absence d’état civil développées jusqu’à
présent. Bien entendu, on continue à
s’appuyer sur l’hypothèse d’uniformité biologique; rejeter totalement cette hypothèse conduirait
à nier toute possibilité d’estimer l’âge à partir d’indicateurs biologiques, la
discuter reste encore cependant nécessaire. Notons à ce sujet que la méthode
bayésienne proposée peut permettre d’accorder plus ou moins de confiance à
cette hypothèse de départ, mais cet aspect aussi reste à approfondir.
En
définitive, nous espérons avoir montré que, pour estimer la structure par âges
des populations du passé, pour lesquelles on ne dispose d’aucun enregistrement
de l’âge au décès mais où les mesures d’indicateurs biologiques viennent
remplacer cet enregistrement, notre méthode est efficace, souple et simple
d’utilisation en comparaison aux propositions antérieures. Nous espérons que de
nombreux paléodémographes l’utiliseront pour que leur expérience complète la
nôtre, précise son usage et suscite les améliorations qui seraient nécessaires.
Références
Bibliographiques
Bergot C., Bocquet J.-P., 1976, Étude
systématique en fonction de l’âge de l’os spongieux et de l’os cortical de
l’humérus et du fémur, Bulletins et Mémoires de la Société d’Anthropologie de
Paris, 3, 215-242.
Biraben J.-N., 1982, L’évolution récente du
temps biologique dans les sociétés industrielles. 1ère partie: aspects
physiologiques. Dans Les âges de la vie (actes du VIIe colloque national de
démographie, Strasbourg, mai 1982): 3-10. Paris: Ined (coll. « Travaux et
documents », 96), 1982.
Bocquet-Appel J.-P., Bacro J.-N., 2008, Estimation
of an age distribution with its confidence intervals using an iterative
bayesian procedure and a bootstrap sampling approach. Dans Recent Advances in paleodemography edité par
J.P. Bocquet-Appel (Springer: Dordrecht), 63-82.
Buchet L., 2005, Les habitants de Cutry
du IIIe au VIIe siècle.
Dans in R. Legoux, L. Buchet, T. Calligaro, D.
Dhénin, A. Liéger, J.-P. Poirot, I.
Rodet-Belarbi, La nécropole mérovingienne de Cutry (Meurthe-et-Moselle): 53-74.
Revue archéologique de l'Est, 54. Saint-Germain-en-Laye: Mémoires publiés par
l'Association Française d'Archéologie Mérovingienne, XIV, 2005.
Caussinus
H., Courgeau D., 2010, Estimer l’âge sans le mesurer en paléodémographie,
Population, 1-2, 117-145.
Caussinus
H., Courgeau D., 2011, Estimation de la structure par âge des décès: nouvelles
propositions. Dans Manuel de paléodémographie, édité par Séguy I. et Buchet
L., (INED: Paris). p 291-325
Courgeau
D., 2011, Critiques des méthodes actuellement utilisées. Dans Manuel de
paléodémographie, édité par Séguy I. et Buchet L., (INED: Paris). p 255-290.
Hoppa R. D., 2000, What to do with long bones: toward
a progressive palaeoauxology, Anthropologie. International Journal of the Science
of Man, XXXVIII, 1, 23-32.
Hoppa R. D., Vaupel J.W., 2002,
Paleodemography: age distributions from skeletal samples, (Cambridge:
Cambridge University Press).
Howell N., 1976, Towards an uniformitarian theory of
human paleodemography, Journal of Human
Evolution, 5, 25-40.
Konigsberg L.W., Frankenberg S. R., 1992, Estimation
of age structure in anthropological demography, American Journal of Physical
Anthropology, 89, 235-256.
La Rochebrochard E. (de),
1999, L’âge de la puberté des filles et des garçons en France. Mesures à partir
d’une enquête sur la sexualité des adolescents, Population, 6, 933-962.
Langenscheidt F., 1985, Methodenkritische Untersuchungen
zur Paläodemographie am Beispiel zweier fränkischer Gräberfelder, Materialen für
Bevölkerungswissenschaft, 2.
Masset
C., 1971, Erreurs systématiques dans la détermination de l’âge par les sutures
crâniennes, Bulletins et mémoires de la société d’anthropologie de Paris, 12
(7), 85-105.
Masset
C., 1982, Estimation de l’âge au décès par les sutures crâniennes, Thèse,
Université de Paris VII.
Piontek J., Jerszyńska B., Segeda S., 2001, Long
bones growth variation among prehistoric agricultural and pastoral populations
from Ukraine (Bronze era to Iron Age), Variability and Evolution, 9, 61-73.
Müller H.-G., Love B., Hoppa R. D., 2002, Semiparametric
methods for estimating paleodemographic profiles from age indicator data,
American Journal of Physical Anthropology, 117, 1-14.
Séguy I., Buchet L., Belaigues-Rossard
M., Couvert N., Perraut C., 2006, Des tables types de mortalité pour les
populations préindustrielles. Présentation, discussion et applications. Dans La
paléodémographie, mémoire d'os, mémoire d'hommes. (Actes des 8e Journées
anthropologiques de Valbonne, juin 2003), édité par Buchet Luc, Dauphin
Claudine, Séguy Isabelle (dir.), (Antibes: Editions APDCA). p 301-321
Séguy
I., Buchet L., Bringé A., 2008, Model
life tables for pre-industrial populations. First applications in
paleodemography. Dans Recent advances in paleodemography. Data, techniques, Patterns, édité par J.-P. Bocquet-Appel (Dordrecht: Springer-Verlag), p 109-141
Séguy I., Buchet L., 2011, Manuel
de Paléodémographie. (Paris: INED (collection Manuels))
Theureau
C., 1996, Proposition pour améliorer l’évaluation de l’âge au décès des adultes
à partir de plusieurs indicateurs pris sur le squelette, Bulletins et Mémoires
de la Société d’Anthropologie de Paris, 8 (3-4), 441-450.
Usher B. M., 2002, Reference samples: the first step
linking biology and age in the human skeleton ». Dans Paleodemography: age
distributions from skeletal samples, édité par Robert D. Hoppa et James W.
Vaupel (Cambridge: Cambridge University Press), p 29-47.