Que faut-il prendre en compte lors du choix des échantillons de population à des fins de collecte de données à distance ?

Le tableau ci-dessous présente les quatre principales options possibles pour constituer des échantillons de population potentiels. Elles se fondent sur deux grands paramètres :

L'échantillon est-il représentatif de l'ensemble de la population concernée
Utiliserez-vous un échantillon existant ou créerez-vous un nouvel échantillon ?

Une brève description de chacune des quatre options résultant de la combinaison de ces deux paramètres est donnée ci-dessous.

Tableau 3 : Principales options pour constituer des échantillons pour la collecte de données

Quels sont les avantages et les inconvénients des échantillons préexistants ?

L'utilisation d'échantillons préexistants comporte plusieurs avantages :

Informations existantes sur les personnes faisant partie de l'échantillon – Comme il est difficile de maintenir l'attention des gens pendant un long moment dans les enquêtes à distance, c'est un avantage majeur de disposer d'informations démographiques sur votre échantillon de population.

Procédures de consentement allégées – Si les participants ont déjà effectué une procédure de consentement éclairé exhaustive, il suffira peut-être de leur donner uniquement des informations sur la manière dont la procédure de consentement générale est actualisée dans les circonstances actuelles, ce qui pourrait vous faire gagner du temps. Une procédure de consentement initiale effectuée en face à face peut contribuer à renforcer la confiance des participants à l'égard du processus de recherche.

Réduction de (certains) biais – Le fait d'avoir eu des relations antérieures peut réduire les biais dans les comportements autodéclarés, les attitudes ou les croyances, en particulier si ces opinions ou pratiques sont contraires aux normes ou aux directives gouvernementales en vigueur.

Taux de réponse plus élevés – Le fait d'avoir des relations avec les personnes peut amener une différence considérable dans les taux de réponse. Par exemple, une étude utilisant la composition aléatoire en Inde a eu des taux de réponse d'environ 25 % seulement, alors que des études similaires parmi des cohortes préexistantes au Kenya ont montré que, sur les 74 % de participants potentiels qui ont répondu à l'appel, seuls 1 % ont refusé de participer. De faibles taux de participation peuvent introduire des biais qu'il est difficile de corriger.

Voici quelques inconvénients possibles de l'utilisation d'échantillons préexistants :

Sous-groupes incomplets – L'échantillon initial n'est pas nécessairement pleinement représentatif de la population cible du nouvel échantillon, par exemple si l'échantillon initial était basé sur un sous-groupe de la population (comme les mères d'adolescents).
Biais lié à la désirabilité sociale – La connaissance des objectifs d'une étude antérieure (par exemple, une étude sur les bons comportements en matière de santé) peut amener des biais dans les réponses lorsque les participants connaissent le point de vue de ceux qui mènent l'étude.
Lassitude des répondants – Les répondants sont parfois moins désireux de continuer à répondre aux questions ou accordent moins d'attention à leurs réponses.

Quels sont les avantages des échantillons représentatifs ?

Dans la mesure du possible, efforcez-vous de constituer un échantillon représentatif. Le fait d'avoir un échantillon représentatif signifie que les personnes de votre échantillon ne sont pas systématiquement différentes de la population que vous souhaitez étudier, ce qui est essentiel pour obtenir des conclusions aussi exactes que possible. La non-représentativité peut être introduite de plusieurs façons, avec quelques inconvénients importants :

Les échantillons non représentatifs peuvent exclure les personnes vulnérables ou marginalisées et celles qui vivent dans des endroits inaccessibles. Ces personnes ont moins de chances de figurer dans beaucoup d'échantillons de commodité (par exemple, lors de l'échantillonnage des visiteurs d'un établissement de santé).
La non-représentativité introduite par la collecte de données à distance elle-même risque d'exclure des personnes vulnérables ou marginalisées en raison de l'impossibilité de les contacter à distance. Par exemple, la plupart des collectes de données à distance nécessitent l'accès à des téléphones portables et environ 30 % des personnes dans le monde n'ont pas de téléphone.
Même une approche de composition aléatoire peut être biaisée car certaines familles ont plusieurs numéros de téléphone, et la probabilité que leur ménage soit sélectionné est donc plus élevée. Enfin, certains groupes d'âge ou certains sexes peuvent être plus ou moins susceptibles de répondre au téléphone ou d'accepter de répondre à une enquête par téléphone.

Un échantillon représentatif peut également être représentatif d'une partie seulement de la population, plutôt que de la population entière. Par exemple, pour comprendre l'impact de la COVID-19 sur les femmes, les jeunes ou les personnes souffrant de handicaps physiques, il peut être utile de se concentrer uniquement sur cette population. Dans ce cas, on pourrait réduire un échantillon préexistant afin de se concentrer sur le sous-groupe à étudier, ou dans le cas d'un échantillon nouvellement construit, on pourrait utiliser des questions de présélection pour déterminer si le répondant fait partie du sous-groupe à étudier.

Comment tenir compte et corriger les faibles taux de réponse dans les échantillons nouvellement créés ou la non-représentativité dans votre base d'échantillonnage ?

Obtenir un échantillon représentatif est un défi dans tous les travaux de recherche. Mais il est particulièrement important d'être conscient des biais qui pourraient être introduits quand on essaie de construire un échantillon ou de collecter des données à distance, et il faut signaler et prendre en compte ces biais lors des conclusions.

Il existe plusieurs approches pour corriger le biais de non-réponse et l'échantillonnage non représentatif.

Lorsque le taux de réponse n'est pas élevé, les personnes qui répondent à une enquête peuvent être systématiquement différentes de celles qui ne répondent pas. On peut ajuster les données pour compenser les données manquantes à l'aide de différentes techniques (dont l'imputation multiple).
Lorsque les personnes faisant partie de la base d'échantillonnage ne sont pas représentatives de la population cible, une pondération post-enquête peut être réalisée avec diverses techniques, notamment le ratissage et l'appariement.

Voir ce blog de la Banque mondiale : Mobile Phone Surveys (Part 1): Sampling and Mode (Enquêtes par téléphone mobile, 1ère partie : Échantillonnage et mode) pour plus de détails et des exemples sur le choix d'une base d'échantillonnage.

Vous voulez en savoir plus sur la collecte de données à distance ?

Notes de révision

Rédigé par : Fiona Majorin, Julie Watson et James B. Tidwell
Vérifié par : Lauren D’Mello-Guyett, Poonam Trivedi, Tracy Morse, Erica Wetzler, Michael Joseph, Holta Trandafili
Article mis à jour le : 15/06/2020