Antropo, 2012: Buchet et al

Colloques du Groupement des Anthropologistes de Langue Française (GALF)

Buchet, L., Caussinus, H., Courgeau, D., Séguy, I., 2012, Estimation de l’âge en l’absence d’état civil: une nouvelle méthode bayésienne et son application à la paléodémographie. Antropo, 27, 1-8. www.didac.ehu.es/antropo

Estimation de l’âge en l’absence d’état civil: une nouvelle méthode bayésienne et son application à la paléodémographie

Estimating age without vital statistics: a new Bayesian method and its application to paleodemography

Luc Buchet^1,2, Henri Caussinus³, Daniel Courgeau², Isabelle Séguy^2,1

¹ CEPAM (UMR 6130, Université de Nice Sophia-Antipolis-CNRS

² Institut National d’Etudes Démographiques, Paris

³ Institut de Mathématiques, Université Paul Sabatier, Toulouse)

Correspondance: seguy@ined.fr

Mots clés: Indicateurs d’âge, méthodes bayésiennes, paléodémographie, loi de mortalité.

Key words: Age indicators, Bayesian methods, paleodemography, mortality models.

Résumé

Pour estimer l’âge dans des populations sans état civil, on recourt le plus souvent à des indicateurs biologiques d’âge qui portent la trace du stade de croissance ou de vieillissement atteint par l’individu au moment de son observation (en démographie anthropologique) ou de son décès (en paléodémographie).

Les paléodémographes ont développé un certain nombre de méthodes pour contourner le problème statistique que pose la mauvaise corrélation de l’âge biologique avec l’âge donné par l’état civil. Ils s’appuient sur une population de référence pour laquelle indicateurs biologiques et âges au décès sont connus, ce qui fournit une information sur la distribution d’un indicateur conditionnellement à l’âge au décès, information qui s’ajoute à celle fournie par le ou les indicateur(s) mesuré(s) sur un échantillon (souvent de petite taille). Le problème statistique qui en résulte est relativement simple mais s’avère très instable en pratique et nécessite donc une attention particulière.

Nous présentons ici une nouvelle méthode statistique, fondée sur une approche bayésienne, qui permet une estimation plus précise et mieux assurée de la structure par âges de la population. Nous présentons et discutons les résultats obtenus lorsque cette méthode est appliquée à un ensemble bien documenté de squelettes.

Abstract

To estimate age in populations without vital statistics, researchers use biological indicators. Biological growth indicators for immature individuals, or ageing for adults, measure the age reached at the moment of observation (in anthropological demography) or at death (in paleodemography).

Paleodemographers have developed several methods to overcome the statistical difficulty resulting from the loose relationship between age and biological indicator(s). They use a reference database where biological indicators and age are known for each individual; so, they have not only the information given by the indicator(s) measured on the sample (often small), but also an information on the conditional distribution of indicator(s) at a given age. As described, the statistical problem is theoretically simple but, in practice, it suffers from a high instability and requires special attention. In this paper, we present a new statistical method, based on the Bayesian approach, which provides a more reliable estimate of the age distribution at death than previous methods. We describe and discuss the results when this method is applied to a well documented osteological dataset.

Les comportements démographiques des populations, à partir desquels les démographes dégagent des lois et des tendances, dépendent étroitement de la variable temps, tant au niveau du calendrier que dans la durée que mesure l’âge des individus au moment des principaux événements observés (mariage, migration, naissances des enfants, divorce et mort). La nécessité de disposer de l’âge des individus en observation justifie les très nombreux travaux relatifs à sa mesure ou à son estimation lorsqu’on ne dispose pas de données d’état civil. Pour ce faire, on recourt le plus souvent à des indicateurs biologiques d’âge qui portent la trace du stade de croissance ou de vieillissement atteint par l’individu au moment de son observation (en démographie anthropologique) ou de son décès (en paléodémographie et en médecine légale).

Les sources ostéologiques et leurs limites biologiques et statistiques

Toutes les méthodes d’estimation de l’âge disponibles actuellement ont été mises au point sur des ensembles de squelettes des XIX et XXe siècles dont le sexe et l'âge au décès sont connus, retenus comme "populations de référence". Les critères morphologiques reconnus comme discriminants dans la population de référence sont ensuite utilisés sur des séries anciennes. Ces méthodes postulent donc que les paramètres biologiques utilisés sont constants -ou varient peu- dans le temps. C’est sur l’hypothèse d’uniformité biologique (Howell, 1976), invoquant la non variabilité des phénomènes biologiques au cours du temps, que se fondent la plupart des méthodes anthropologiques et tout particulièrement les estimations d’âge à partir de critères biologiques.

Elle postule, en effet, que

1) les processus biologiques relatifs à la mortalité et à la fécondité des hommes du passé étaient semblables à ceux observés aujourd’hui par les démographes-anthropologues;

2) le développement biologique s’inscrit dans un cadre chronologique commun à toutes les populations, quels que soient les lieux et les époques.

Ces deux postulats sont vivement débattus depuis une quinzaine d’années au sein de la communauté scientifique. Il apparaît, sans que l’on puisse, ni la mesurer correctement, ni être certain de la linéarité de la tendance, que les processus de croissance varient dans le temps et dans l’espace. Sur le temps court (quelques générations), on a pu mesurer l’évolution de plusieurs processus biologiques, tels qu’une modification de l’ordre des poussées dentaires, un âge moyen de la puberté plus précoce (Biraben, 1982; De La Rochebrochard, 1999) ou une accélération des processus de croissance en relation avec l’amélioration récente des conditions de vie (Hoppa, 2000; Piontek et al., 2001). Lorsqu’on applique ces référentiels très modernes à des populations du passé, voire des périodes pré- et protohistoriques, on ne peut pas exclure la possibilité d’une dérive séculaire des indicateurs biologiques d’âge. Faute de pouvoir la mesurer, les anthropologues en sont venus à la négliger, tout en espérant que les éventuelles divergences ne soient pas trop profondes car, si le processus de croissance ou de sénescence n’intervient pas à la même vitesse dans la population archéologique que dans la population de référence, les âges estimés risquent d’être très éloignés des âges «vrais».

Par ailleurs, les variations observées d’un individu à l’autre dans les processus de croissance et de sénescence entraînent une médiocre corrélation statistique entre l'âge estimé par des indicateurs biologiques et l'âge réel. Ce constat s’applique quel que soit l’indicateur biologique utilisé et quel que soit le nombre d’indicateurs d’âges retenus par les méthodes multicritères (cf. Manuel de paléodémographie, 2011). Toute estimation de l’âge individuel s’inscrit donc dans une fourchette, plus ou moins large et dans une marge d’incertitude non mesurable, entre l’âge réel au décès et son âge estimé. De ce fait, aucune méthode n’est suffisamment précise pour être utilisée telle quelle dans une approche démographique des populations du passé.

En effet, la paléodémographie, comme la démographie, doit prendre en compte tous les individus, avec comme objectif la reconstitution des structures démographiques de la population. Dans ce cas, comment tenir compte de la marge d'erreur associée à chaque estimation? La négliger, en pensant que les erreurs en plus ou en moins s'annulent entre elles, conduit à surestimer les individus d’âge moyen au détriment des plus âgés et des plus jeunes; ceci explique, par exemple, l'absence de vieillards dans les études paléodémographiques anciennes fondées sur un ensemble d’âges individuels moyens estimés (fig. 1).

Figure 1. Si on se fie aux âges moyens, la population adulte se distribue entre 30 et 60 ans, et non entre 16 et 74 ans comme l’indique la marge d’erreur associée à chaque âge (d’après Buchet, 2005).

L’approche matricielle et ses limites

Pour résoudre cette question, certains chercheurs, notamment C. Masset et J.-P. Bocquet-Appel en France, se sont engagés dans une autre voie: l’estimation de la distribution par âges au décès d’un ensemble d’inhumés dans une approche probabiliste. Claude Masset (1982) a présenté une méthode statistique, dite méthode des "vecteurs de probabilités", permettant de répartir l’ensemble de la population adulte inhumée, non pas en additionnant les âges individuels des sujets, mais selon la distribution probable par groupes d'âges de l’ensemble des individus inhumés. A partir d’une collection de référence, dont les effectifs par groupes d’âges ont été artificiellement égalisés (« standardisés »), pour éviter l’influence de la structure de la population de référence, Claude Masset a établi des matrices de fréquence permettant de relier les observations biologiques (regroupées en stades, gradués de I à VII) à l’ensemble des groupes d’âges dans lequel ce stade est observé.

Figure 2. Exemple de matrice de fréquences (ou vecteurs de probabilités) établie selon le principe défini par C. Masset, où l’âge est fonction du stade (d’après Séguy, Buchet, 2011).

Ces matrices, appelées “vecteurs de probabilités ” dans les études paléodémographiques françaises, prennent en compte les probabilités, pour chaque squelette, d’appartenir à chacun des groupes d’âges retenus (fig. 2), en fonction de son degré de synostose crânienne.

L’indicateur biologique d’âge retenu par C. Masset, et par nous-mêmes, est le degré de synostose exocrânienne de chaque individu; cependant l’approche matricielle peut être appliquée à n’importe quel autre indicateur d’âge. Elle a d’ailleurs fait l’objet d’adaptations par C. Bergot et J.-P. Bocquet-Appel (1976) qui ont utilisé les têtes fémorales et humérales, par F. Langenscheidt (1985) avec la symphyse pubienne et par C. Theureau (1998) qui l’a appliquée à quatre indicateurs d’âges (synostose des sutures endocrâniennes, modifications de la symphyse pubienne, degré de minéralisation des extrémités proximales du fémur et de l'humérus).

D’un point de vue mathématique, l’approche matricielle utilisée dans l’estimation d’un âge au décès « collectif » n’est pas soumise à l’influence de la structure de la population de référence, puisqu’il s’agit des fréquences observées par groupes d’âges. Cependant, dans la mise en pratique, la loi statistique se heurte au double problème du petit nombre d’individus observés dans les collections de comparaison (voir l’inventaire proposé par Usher, 2002) et du nombre encore plus faible de squelettes archéologiques auxquels ces calculs s’appliquent. Cette méthode (ALK - Age Length Key- pour Konigsberg et Frankenberg, 1992; méthode des vecteurs de probabilités pour Claude Masset, 1971, 1982) suppose que les probabilités sont correctement estimées par les fréquences, tant dans la population de référence que dans la population observée. Toutefois, comme les effectifs de squelettes sont très souvent faibles, ces hypothèses ne tiennent pas. Sans corrections appropriées mais qui introduisent des pré-supposés, les estimations qui en résultent risquent fort d’être incorrectes.

Par ailleurs, et surtout, la distribution calculée dépend fortement de la distribution des âges dans la population de référence, puisque la méthode consiste à calculer chaque cellule de la matrice estimée de sorte qu’elle soit la plus proche possible de chaque cellule de la matrice de référence. En fait cette méthode ne tient pas compte, en particulier, de l’hypothèse d’uniformité biologique (Howell, 1976), encore appelée hypothèse d’invariance (Müller et al., 2002), selon laquelle, pour tout reste osseux ou dentaire d’âge au décès donné, la probabilité pour qu’il soit classé dans un stade biologique donné ne dépend que de cet âge, indépendamment de la population d’où il a été extrait (fig. 3).

Ce schéma illustre clairement la différence d’approche entre la méthode des vecteurs de probabilités (qui part des régressions définies en B) et celles proposées ici, ou encore par Bocquet-Appel et Bacro (2008), qui partent des régressions définies en A.

Figure 3. Influence de la structure de la population de référence sur la structure de la population étudiée (d’après C. Masset, 1982, page 23). A1 et A2 = droites de régression des sutures en fonction de l’âge. Elles varient peu d’une population observée à une autre (phénomène d’uniformité biologique). B1 et B2 = droites de régression de l’âge en fonction des sutures. Elles dépendent de la composition par âges au décès de la population de référence qui a été utilisée pour mettre au point la méthode d’estimation de l’âge.

L’approche bayésienne proposée

L’intérêt de la recherche en paléodémographie est d’estimer Pr(a/c) la probabilité pour que tels restes humains soient ceux d’une personne décédée à l’âge a, pour une observation donnée des caractéristiques biologiques du squelette, l’indicateur c. La probabilité Pr(a/c) n’est pas identique à Pr(c/a) qui peut être estimée directement en s’appuyant sur la collection de référence. Mais on peut passer de l’une à l’autre de ces probabilités conditionnelles en utilisant l’information fournie par les données d’un site sur la loi de probabilité de l’indicateur c dans ce site. L’important est que cela soit fait en utilisant la seule hypothèse d’uniformité biologique, c’est-à-dire en lisant la matrice de référence exclusivement « en valeurs relatives par colonnes » (fig. 4).

Figure 4. Exemple de matrice de référence où le stade est fonction de l’âge (d’après Séguy, Buchet, 2011).

Les fréquences des données issues de la population de référence et les fréquences des données issues de la population observée sont des échantillons, observations de variables aléatoires dont la loi de probabilité dépend de paramètres inconnus (probabilités conditionnelles de référence P(c/a) et probabilités des âges P(a)). Dans une approche bayésienne, ces paramètres sont eux aussi considérés comme aléatoires, avec une loi dite a priori que l’analyste fixe pour prendre en compte ses connaissances préalables ou, au contraire, sa totale ignorance. Cette loi est ensuite révisée en fonction des données recueillies sur le site: c’est la loi conditionnelle aux caractéristiques biologiques observées, dite loi a posteriori. Pour la probabilité P(a) de chaque tranche d’âge, on obtient ainsi une distribution; celle-ci permet, en particulier, de donner une estimation de la probabilité de cette tranche d’âge sur le site étudié en considérant une tendance centrale de cette loi (nous prendrons ici la moyenne), mais elle permet aussi d’apprécier la précision de cette estimation en considérant sa dispersion.

Un point crucial est le choix des lois a priori. Pour les probabilités conditionnelles du stade c connaissant l’âge a (P(c/a)), la seule information disponible est celle contenue dans la population de référence; nous l’utilisons de la façon la plus standard en statistique bayésienne pour proposer la loi a priori de ces paramètres. Pour les proportions P(a) des diverses classe d’âge, on a au moins une information a priori: il s’agit d’une loi de mortalité à une époque préindustrielle; cette information conduit à prendre une loi a priori dont la moyenne pour chaque âge est celle du standard préindustriel; si d’autres informations sont disponibles, comme dans le cas de l’exemple traité plus loin, elles peuvent être introduites à ce niveau. Un peu de mathématique permet de calculer formellement la loi a posteriori des P(a) et les calculs numériques peuvent être menés par simulation (voir Caussinus et Courgeau, 2010). En particulier, pour chaque âge a, la moyenne a posteriori fournit une estimation ponctuelle de P(a) et les quantiles a posteriori fourniront des « intervalles de crédibilité », version bayésienne des « intervalles de confiance ».

Un programme informatique en langage R d’ «Estimation de la loi de probabilité de l’âge au décès» est disponible sur Cd-Rom (Séguy, Buchet, 2011) ou sur simple demande.

Nous présentons brièvement une application de cette méthode.

Application de cette méthode

Cette méthode a été appliquée au cimetière de moniales de Maubuisson (France, Val d’Oise, XVII^e-XVIII^e siècles). L’échantillon anthropologique est de taille très modeste (37 squelettes étudiables, sur une population inhumée de 162 moniales) mais très bien documenté archéologiquement et historiquement (conditions de vie et mortalité par âges). Cet exemple a été retenu car des registres du couvent permettent d’évaluer la distribution effective des âges au décès, même si une certaine prudence est de mise compte tenu du fait que le petit échantillon considéré peut être biaisé par rapport à l’ensemble des moniales envisagées dans les registres.

Sans reprendre ici la démonstration déjà faite (Caussinus, Courgeau, 2010), nous pouvons en rappeler les principaux enseignements.

– Le fait qu’il s’agisse de religieuses de haute noblesse informe sur le fait que, lors de leur admission, ces femmes sont certainement en meilleure santé que la moyenne de la population; par la suite, elles sont préservées de plusieurs risques importants de mortalité, en particulier de la mortalité en couche. Ces éléments peuvent être intégrés dans les paramètres définissant les lois de probabilité a priori des classes d’âges: nous avons légèrement modifié le standard préindustriel en ce sens.

– Comme illustré dans la figure 5 les probabilités de décès par âges, estimées par les moyennes a posteriori, sont très proches des valeurs données par les registres de décès.

- Les intervalles de crédibilité, assez larges après 50 ans, traduisent l’impossibilité d’avoir des estimations très précises avec un échantillon aussi petit.

- Par rapport à une loi a priori correspondant au « standard préindustriel », la prise en compte des spécificités biodémographiques des religieuses permet de proposer des estimations beaucoup plus proches de la distribution des décès observée à partir des sources écrites. Par ailleurs, si l’on considère les deux premières tranches d’âges, pour lesquelles les proportions de décès sont étonnamment faibles, les moyennes a posteriori révisent fortement à la baisse les moyennes a priori, qu’il s’agisse du standard préindustriel ou du standard préindustriel modifié; au delà des quantités estimées, on a là une information qualitative importante qui vient confirmer la bonne santé des jeunes nonnes et suggère même que ces estimations restent vraisemblablement pessimistes.

Figure 5. Exemple de Maubuisson: Estimations des probabilités par la moyenne a posteriori et quantiles donnant les intervalles de crédibilité à 90 % et à 50% (loi a priori: standard préindustriel modifié) (d’après Caussinus, Courgeau, Population, 2010, 1, p. 136).

Conclusions

Les méthodes antérieures (ALK, IALK) sont souvent qualifiées du terme bayésien par les paléodémographes, parce qu’elles utilisent le théorème de Bayes et parce qu’elles introduisent des considérations a priori dans leur méthode d’estimation, mais le paradigme sur lequel elles se fondent est, en fait, de nature fréquentiste. Notre nouvelle approche est, au contraire, strictement bayésienne, au sens couramment donné à ce terme en statistique. Elle considère comme aléatoires, aussi bien les fréquences observées (population de référence et site à l’étude) que les paramètres inconnus. Dans ce problème de nature particulièrement instable et aux tailles d’échantillon faibles, cette façon de voir s’avère plus efficace que les méthodes d’estimation de l’âge en l’absence d’état civil développées jusqu’à présent. Bien entendu, on continue à s’appuyer sur l’hypothèse d’uniformité biologique; rejeter totalement cette hypothèse conduirait à nier toute possibilité d’estimer l’âge à partir d’indicateurs biologiques, la discuter reste encore cependant nécessaire. Notons à ce sujet que la méthode bayésienne proposée peut permettre d’accorder plus ou moins de confiance à cette hypothèse de départ, mais cet aspect aussi reste à approfondir.

En définitive, nous espérons avoir montré que, pour estimer la structure par âges des populations du passé, pour lesquelles on ne dispose d’aucun enregistrement de l’âge au décès mais où les mesures d’indicateurs biologiques viennent remplacer cet enregistrement, notre méthode est efficace, souple et simple d’utilisation en comparaison aux propositions antérieures. Nous espérons que de nombreux paléodémographes l’utiliseront pour que leur expérience complète la nôtre, précise son usage et suscite les améliorations qui seraient nécessaires.

Références Bibliographiques

Bergot C., Bocquet J.-P., 1976, Étude systématique en fonction de l’âge de l’os spongieux et de l’os cortical de l’humérus et du fémur, Bulletins et Mémoires de la Société d’Anthropologie de Paris, 3, 215-242.

Biraben J.-N., 1982, L’évolution récente du temps biologique dans les sociétés industrielles. 1ère partie: aspects physiologiques. Dans Les âges de la vie (actes du VIIe colloque national de démographie, Strasbourg, mai 1982): 3-10. Paris: Ined (coll. « Travaux et documents », 96), 1982.

Bocquet-Appel J.-P., Bacro J.-N., 2008, Estimation of an age distribution with its confidence intervals using an iterative bayesian procedure and a bootstrap sampling approach. Dans Recent Advances in paleodemography edité par J.P. Bocquet-Appel (Springer: Dordrecht), 63-82.

Buchet L., 2005, Les habitants de Cutry du IIIe au VIIe siècle. Dans in R. Legoux, L. Buchet, T. Calligaro, D. Dhénin, A. Liéger, J.-P. Poirot, I. Rodet-Belarbi, La nécropole mérovingienne de Cutry (Meurthe-et-Moselle): 53-74. Revue archéologique de l'Est, 54. Saint-Germain-en-Laye: Mémoires publiés par l'Association Française d'Archéologie Mérovingienne, XIV, 2005.

Caussinus H., Courgeau D., 2010, Estimer l’âge sans le mesurer en paléodémographie, Population, 1-2, 117-145.

Caussinus H., Courgeau D., 2011, Estimation de la structure par âge des décès: nouvelles propositions. Dans Manuel de paléodémographie, édité par Séguy I. et Buchet L., (INED: Paris). p 291-325

Courgeau D., 2011, Critiques des méthodes actuellement utilisées. Dans Manuel de paléodémographie, édité par Séguy I. et Buchet L., (INED: Paris). p 255-290.

Hoppa R. D., 2000, What to do with long bones: toward a progressive palaeoauxology, Anthropologie. International Journal of the Science of Man, XXXVIII, 1, 23-32.

Hoppa R. D., Vaupel J.W., 2002, Paleodemography: age distributions from skeletal samples, (Cambridge: Cambridge University Press).

Howell N., 1976, Towards an uniformitarian theory of human paleodemography, Journal of Human Evolution, 5, 25-40.

Konigsberg L.W., Frankenberg S. R., 1992, Estimation of age structure in anthropological demography, American Journal of Physical Anthropology, 89, 235-256.

La Rochebrochard E. (de), 1999, L’âge de la puberté des filles et des garçons en France. Mesures à partir d’une enquête sur la sexualité des adolescents, Population, 6, 933-962.

Langenscheidt F., 1985, Methodenkritische Untersuchungen zur Paläodemographie am Beispiel zweier fränkischer Gräberfelder, Materialen für Bevölkerungswissenschaft, 2.

Masset C., 1971, Erreurs systématiques dans la détermination de l’âge par les sutures crâniennes, Bulletins et mémoires de la société d’anthropologie de Paris, 12 (7), 85-105.

Masset C., 1982, Estimation de l’âge au décès par les sutures crâniennes, Thèse, Université de Paris VII.

Piontek J., Jerszyńska B., Segeda S., 2001, Long bones growth variation among prehistoric agricultural and pastoral populations from Ukraine (Bronze era to Iron Age), Variability and Evolution, 9, 61-73.

Müller H.-G., Love B., Hoppa R. D., 2002, Semiparametric methods for estimating paleodemographic profiles from age indicator data, American Journal of Physical Anthropology, 117, 1-14.

Séguy I., Buchet L., Belaigues-Rossard M., Couvert N., Perraut C., 2006, Des tables types de mortalité pour les populations préindustrielles. Présentation, discussion et applications. Dans La paléodémographie, mémoire d'os, mémoire d'hommes. (Actes des 8e Journées anthropologiques de Valbonne, juin 2003), édité par Buchet Luc, Dauphin Claudine, Séguy Isabelle (dir.), (Antibes: Editions APDCA). p 301-321

Séguy I., Buchet L., Bringé A., 2008, Model life tables for pre-industrial populations. First applications in paleodemography. Dans Recent advances in paleodemography. Data, techniques, Patterns, édité par J.-P. Bocquet-Appel (Dordrecht: Springer-Verlag), p 109-141

Séguy I., Buchet L., 2011, Manuel de Paléodémographie. (Paris: INED (collection Manuels))

Theureau C., 1996, Proposition pour améliorer l’évaluation de l’âge au décès des adultes à partir de plusieurs indicateurs pris sur le squelette, Bulletins et Mémoires de la Société d’Anthropologie de Paris, 8 (3-4), 441-450.

Usher B. M., 2002, Reference samples: the first step linking biology and age in the human skeleton ». Dans Paleodemography: age distributions from skeletal samples, édité par Robert D. Hoppa et James W. Vaupel (Cambridge: Cambridge University Press), p 29-47.