¿Qué se debería tener en cuenta al elegir la población de muestra para la recolección remota de datos?

En la siguiente tabla, hay cuatro opciones principales para identificar potenciales poblaciones de muestra. Estas opciones se basan en dos cuestiones principales:

¿La muestra es representativa de toda la población de interés
¿Se usará una muestra existente o se creará una muestra nueva?

A continuación, se da una descripción breve de cada una de estas cuatro opciones que surgen de combinar estas dos cuestiones.

Tabla 3: Opciones principales para elegir muestras en la recolección remota de datos

¿Cuáles son las ventajas y desventajas de las muestras preexistentes?

Usar muestras preexistentes tiene varias ventajas, por ejemplo:

Información existente sobre las personas incluidas en la muestra. Dado que es difícil mantener la atención de las personas durante períodos largos en encuestas remotas, es una gran ventaja tener información demográfica sobre la población de muestra.

Procesos de consentimiento informado posiblemente más cortos. Si previamente los participantes ya han atravesado un proceso de consentimiento informado más exhaustivo, quizás usted solo deba proporcionar información sobre cómo se ha ido actualizando el proceso general de consentimiento informado en las circunstancias actuales y, de esa forma, podría ahorrar tiempo. Si inicialmente el proceso de consentimiento se llevó adelante de manera presencial, quizás los participantes confíen más en el proceso de investigación.

Reducción de (algunos tipos de) sesgos. Las relaciones previas tal vez provoquen una reducción de los sesgos en los comportamientos autodeclarados, las actitudes o las creencias, en particular si estas opiniones o prácticas son contrarias a las normas vigentes o las directrices gubernamentales.

Mayor tasa de respuesta. Tener una relación previa puede hacer que haya una gran diferencia en la tasa de respuesta. Por ejemplo, en un estudio hecho mediante el marcado aleatorio de números telefónicos en India, la tasa de respuesta fue apenas un 25% aproximadamente, mientras que en estudios similares con cohortes preexistentes en Kenia se halló que, del 74% de participantes potenciales que atendieron la llamada, solo el 1% se negó a participar. Una tasa baja de participación quizás introduzca sesgos que son difíciles de corregir.

Algunas posibles desventajas de usar muestras preexistentes son:

Subgrupos faltantes. Es posible que la muestra original no represente en su totalidad a la población objetivo de la muestra nueva, por ejemplo: si la muestra original se basó en un subgrupo de la población (p. ej.: madres de adolescentes).
Sesgo de deseabilidad social. Conocer los objetivos de un estudio anterior (p. ej.: un estudio sobre comportamientos de salud) podría sesgar las respuestas si los participantes saben cuál es el punto de vista de quienes llevan a cabo el estudio.
Fatiga de los encuestados. Los encuestados quizás estén menos interesados en seguir respondiendo preguntas o le presten menos atención a las respuestas que dan.

¿Cuáles son las ventajas de las muestras representativas?

Cuando sea posible, se debería apuntar a tener una muestra representativa. Tener una muestra representativa significa que las personas que integran la muestra no son sistemáticamente distintas a la población sobre la cual se desea saber más y es clave para garantizar que las conclusiones sean lo más precisas posible. La falta de representatividad se puede introducir de diversas formas, lo cual tiene algunas desventajas significativas:

Las muestras no representativas quizás excluyan a personas vulnerables o marginadas que viven en lugares inaccesibles. Estas personas quizás tengan menor probabilidad de estar presentes en muestras de conveniencia (p. ej.: muestreo de personas que concurren a una clínica).
La falta de representatividad introducida por la recolección remota de datos en sí quizás excluya a personas vulnerables o marginadas porque no se puede entrar en contacto con ellas de manera remota. Por ejemplo, la mayoría de los métodos de recolección de datos requieren contar con acceso a un teléfono celular y aproximadamente el 30% de la población mundial no tiene teléfono.
Incluso el marcado aleatorio de números telefónicos puede ser sesgado, porque algunas familias tienen más de un número telefónico, lo cual implica que es más alta la probabilidad de que se seleccione a esa familia. Asimismo, es posible que ciertos grupos etarios o géneros sean más o menos propensos a atender el teléfono o acceder a responder una encuesta telefónica.

Una muestra representativa también podría representar solo a una parte de la población, en lugar de a la población en su totalidad. Por ejemplo, podría entenderse mejor el impacto que tiene la COVID-19 en las mujeres, los jóvenes o las personas con discapacidad si solo nos centramos en esos grupos. En ese caso, se podría reducir una muestra preexistente para centrarse en un subgrupo de interés o, con una muestra armada de cero, se podrían usar preguntas filtro para determinar si la persona encuestada forma parte del subgrupo de interés.

¿Cómo se debería dar cuenta de las tasas de respuesta bajas y corregirlas en muestras nuevas o en caso de no representatividad en los marcos de muestreo?

Lograr una muestra representativa es un desafío en todo trabajo de investigación. Sin embargo, es particularmente importante ser conscientes de los sesgos que se podrían crear al conformar una muestra o recolectar datos de manera remota e informar estos sesgos y dar cuenta de ellos al momento de extraer conclusiones.

Hay distintos métodos para corregir el sesgo por falta de respuesta y el muestreo no representativo.

Cuando la tasa de respuesta no es alta, quienes responden podrían diferir sistemáticamente de quienes no responden a la encuesta. Es posible corregir los datos faltantes por medio de diversas técnicas (entre ellas, la imputación múltiple).
Cuando quienes conforman el marco de muestreo no representan a la población objetivo, es posible recurrir a la ponderación postencuesta usando diversas técnicas, entre ellas: la jerarquización (ranking) y el emparejamiento (matching).

Lea esta entrada del blog del Banco Mundial, Encuestas por llamada a teléfonos móviles (parte 1): muestreo y modo, para ver más detalles y ejemplos sobre cómo elegir un marco de muestreo.

¿Desea aprender más sobre la recolección remota de datos?

Notas sobre revisión académica

Redactado por: James B. Tidwell
Revisado por: Lauren D’Mello-Guyett, Poonam Trivedi, Tracy Morse, Erica Wetzler, Michael Joseph, Holta Trandafili
Última actualización: 15/06/2020