Calage classique

On corrige ainsi la non?réponse même lorsque les variables qui l'expliquent ne
sont pas .... est appelé estimateur par régression avec variables instrumentales.

Part of the document


CALMAR 2 : UNE NOUVELLE VERSION DU PROGRAMME CALMAR DE REDRESSEMENT
D'ÉCHANTILLON PAR CALAGE Olivier Sautory[1]
RÉSUMÉ Calmar2 est la nouvelle version du programme Calmar de redressement
d'échantillon par calage. Elle contient deux principaux
développements.
Lorsque la collecte de l'information est réalisée à différents niveaux
(par exemple ménages et individus), des calages simultanés sur les
différents échantillons permettent d'assurer une cohérence sur les
statistiques issues de l'enquête.
En présence de non-réponse totale, la méthode de calage généralisé
permet une nouvelle écriture des équations de calage, qui met en jeu
deux ensembles de variables, les variables de calage proprement dites
et les variables expliquant la non-réponse. On corrige ainsi la non-
réponse même lorsque les variables qui l'expliquent ne sont pas
observées sur les non-répondants de l'échantillon.
MOTS CLÉS : Calage, calages simultanés, calage généralisé, non-
réponse.
1. LES MACROS CALMAR 1.1 Un peu d'histoire Calmar est un programme, écrit dans le langage macro de SAS, qui permet de
mettre en ?uvre les méthodes de calage élaborées par Deville et Sarndäl
(1992). Ce programme permet de redresser un échantillon, par repondération
des individus, en utilisant une information auxiliaire disponible sur un
certain nombre de variables, appelées variables de calage. Les pondérations
produites par la méthode assurent le calage de l'échantillon sur des totaux
de variables quantitatives connus sur la population, et sur des effectifs
de modalités de variables catégorielles connus sur la population.
Calmar est un acronyme pour CALage sur MARges : on désigne ainsi la
technique de redressement qui permet d'ajuster les marges (estimées à
partir d'un échantillon) d'un tableau de contingence, croisant deux (ou
plus) variables catégorielles, aux marges connues dans la population. Mais
le programme est plus général que le "calage sur marges" stricto sensu,
puisqu'il permet de caler sur des totaux de variables quantitatives.
Le programme Calmar a été développé en 1990 à l'Institut National de la
Statistique et des Études Économiques (Insee), où il est depuis
régulièrement mis en ?uvre pour le redressement des enquêtes. De nombreux
instituts statistiques français ou étrangers l'utilisent également. La nouvelle version de ce programme, Calmar2, développée en 2003, propose à
l'utilisateur de nouvelles facilités pour réaliser un calage, et permet de
mettre en ?uvre la méthode de traitement de la non-réponse par calage
généralisé, proposée par Deville (1998). Calmar est téléchargeable sur le site Web de l'Insee www.insee.fr, et
Calmar2 sera également mis à disposition sur ce site prochainement. 1.2 Les méthodes de calage de Calmar Rappelons le principe des méthodes de calage que permet de mettre en ?uvre
Calmar (voir aussi Deville et al., 1993). On considère une population U d'individus, dans laquelle on a sélectionné
un échantillon probabiliste s. Soit Y une variable d'intérêt, dont on
désire estimer le total sur la population [pic].
L'estimateur habituel de Y est l'estimateur de Horvitz-Thompson : [pic]
On suppose que l'on connaît les totaux sur la population de J variables
auxiliaires[2] [pic]...[pic]...[pic], disponibles sur l'échantillon :
[pic]
On va chercher de nouvelles pondérations, les "poids de calage" [pic], qui
soient aussi proches que possible, au sens d'une certaine fonction de
distance, des pondérations initiales [pic] (qui sont en général les "poids
de sondage", égaux aux inverses des probabilités d'inclusion [pic]), et qui
assurent le calage sur les totaux des variables [pic], i.e. qui vérifient
les équations de calage : [pic] (1)
La solution de ce problème est donnée par [pic], où [pic], [pic] est un
vecteur de J multiplicateurs de Lagrange associés aux contraintes (1), et F
une fonction dont l'expression dépend du choix de la fonction de distance :
elle est appelée fonction de calage.
Le vecteur [pic] est déterminé par la résolution du système non linéaire de
J équations à J inconnues résultant des équations de calage :
[pic] L'estimateur du total d'une variable d'intérêt sera alors l'estimateur
"calé" [pic]. 4 méthodes de calage, correspondant à 4 fonctions de distance, étaient
proposées dans la première version de Calmar ; elles sont caractérisées par
la forme de la fonction F :
. la méthode linéaire : l'estimateur calé est alors l'estimateur par
régression généralisée :
[pic] [pic]
. la méthode exponentielle : dans le cas où les variables de calage sont
toutes catégorielles, cette méthode est la méthode du raking ratio
(Deming et Stephan, 1940)
. la méthode logit : cette méthode permet de donner des bornes inférieure
L et supérieure U aux rapports de poids [pic]
. la méthode linéaire tronquée, très similaire à la méthode logit. Ces deux dernières méthodes permettent de contrôler l'étendue de la
distribution des rapports de poids. C'est la méthode logit qui est la plus
souvent utilisée, car elle permet d'éviter les poids trop élevés, qui
entraînent des risques de manque de robustesse des estimations, et les
poids trop faibles, voire négatifs, auxquels peut conduire la méthode
linéaire. Précision Les estimateurs calés [pic]ont tous la même précision (asymptotique),
quelle que soit la méthode utilisée : la variance approchée de [pic] est
donc égale à celle de l'estimateur par régression [pic] : [pic],
où [pic].[pic]est le résidu de la régression de Y sur les [pic] dans la
population U.
Cette variance est d'autant plus faible que la corrélation entre la
variable d'intérêt Y et les variables de calage [pic]...[pic]...[pic] est
élevée.
Un estimateur de variance est donné par [pic],
où [pic].
[pic] est le résidu de la régression (pondérée par les [pic]) de Y sur les
[pic] dans l'échantillon s.
1.3 Les nouveautés de Calmar2 Calmar2 (Le Guennec et Sautory, 2003) propose les 4 méthodes de calage qui
viennent d'être présentées, mais également :
. le traitement de calages simultanés pour différents niveaux d'une même
enquête
. la correction de la non-réponse totale par la méthode de calage
généralisé.
Ces deux points seront abordés en détail dans les paragraphes suivants. Calmar2 propose une solution au problème posé par les colinéarités entre
les variables de calage : l'utilisation de matrices inverses généralisées
permet de calculer les poids de calage, alors que Calmar générait dans ce
cas un message d'erreur D'autre part, une nouvelle fonction de distance est proposée dans Calmar2,
la fonction sinus hyperbolique généralisée, dépendant d'un paramètre[pic].
Cette méthode donne des poids toujours positifs, comme la méthode
exponentielle, mais conduit à des distributions de poids moins étendues que
cette dernière du côté des poids élevés. D'autre part, le coefficient [pic]
permet de réduire l'étendue de la distribution des poids, comme le font les
méthodes logit et linéaire tronquée, mais à l'aide d'un seul paramètre (Roy
et al., 2001). Enfin, l'ergonomie du programme a été améliorée, sur deux points en
particulier :
. la macro accepte en entrée des variables de calage catégorielles sans que
l'utilisateur ait à opérer un recodage préalable pour obtenir des
modalités séquentielles ;
. l'utilisateur peut, s'il le souhaite, entrer les paramètres de façon
interactive à l'aide d'écrans de saisie, qui le guident dans ses choix.
2. LES CALAGES SIMULTANÉS 2.1 Le problème Dans certaines enquêtes, la collecte d'informations s'opère à différents
niveaux d'observation :
. l'enquête PCV de l'Insee sur les conditions de vie des ménages comporte
des questions sur les ménages (type de logement, nombre de personnes,
profession du chef de ménage...), sur chacun des individus du ménage
(sexe, âge, profession...), et en général un questionnaire spécifique sur
un individu tiré au hasard parmi les personnes "éligibles" du ménage
(souvent les 15 ans ou plus), appelé "individu-Kish" ;
. l'enquête annuelle d'entreprises (EAE) réalisée par le Ministère de
l'Industrie comprend, en plus du questionnaire sur l'activité globale de
l'entreprise, un volet concernant chacun de ses établissements. Lors du redressement de l'enquête, on peut soit opérer des calages
indépendants sur les différents niveaux d'observation, soit opérer des
calages simultanés, ou "intégrés". La réalisation de calages simultanés
permet d'obtenir in fine les mêmes poids pour tous les individus d'un même
ménage, si tous les individus du ménage sont sollicités pour l'enquête ;
cela permet aussi d'assurer une cohérence entre les statistiques obtenues à
partir des différents fichiers de l'enquête. Par exemple, avec des calages
indépendants sur un échantillon de ménages et sur l'échantillon des
individus correspondants, le nombre de ménages d'une personne estimé à
partir du premier échantillon n'a aucune raison de coïncider avec le nombre
de personnes appartenant aux ménages d'une personne estimé à partir du
deuxième échantillon.
2.2 La méthode De façon plus générale, les situations décrites ci-dessus correspondent au
cas où l'on a réalisé un sondage en grappes ou à plusieurs degrés, et où on
dispose d'une information auxiliaire sur les grappes (ou les unités
primaires) et les unités secondaires, et où