¿Las encuestas son representativas de las preferencias del electorado?

¿Las encuestas son representativas de las preferencias del electorado?

Por y

11 minutos, 14 segundos

Este proceso electoral del 2024 ha entrado en su etapa final—faltando poco más de un par de semanas para la elección del 2 de junio de 2024—y la guerra de propaganda basada en las encuestas de los dos bandos principales se ha intensificado. Así, observamos encuestas con resultados dispares. Algunas con diferencias entre el primer y el segundo lugar de cerca de 30 puntos porcentuales y otras con diferencias de solo 11 puntos.1 Entonces, dadas estas disparidades, los actores políticos pueden construir la narrativa que más les guste.

Dados estos indicadores y el uso desmedido y sin cuestionamiento que se les ha dado a las encuestas, nos preguntamos si, como público, ¿estamos entendiendo qué reportan esas encuestas?, ¿son los datos recolectados con ellas representativos del electorado?, ¿todas las encuestas pueden ser equiparables y, por lo tanto, se les puede agregar?, ¿los datos recolectados representan a una misma población? Después de revisar aquellas encuestas que son reguladas por el Instituto Nacional Electoral (INE), nuestra respuesta contundente es no. Este es nuestro argumento.

  1. Qué sabemos de las encuestas reguladas por el INE
    ¿Qué es una encuesta?

De acuerdo con la Asociación Mexicana de Agencias de Investigación de Mercado y Opinión Pública, en contraposición a un censo—en donde se recopilan los datos de todas las personas de la población—, en una encuesta se recopila los datos de sólo un subconjunto o muestra de la población.2 Para que los datos obtenidos mediante una encuesta sean representativos de la población total requieren que cada individuo seleccionado en una muestra sea multiplicado por su factor de expansión o por su ponderador. En términos simples, el factor de expansión es la capacidad que tiene cada individuo seleccionado en una muestra probabilística para representar la población de donde se le seleccionó.3 Otra forma de verlo es que el factor de expansión constituye el peso que se le da a cada unidad muestral para generalizar los resultados de la muestra a la población. Por su parte, un ponderador es un valor que se usa para aumentar o disminuir la importancia de un elemento, ya que muchas veces los datos recopilados de las encuestas no son exactamente de una muestra representativa de la población.4

En México existen múltiples ejemplos de encuestas para las que se reporta su factor de expansión. El caso más conocido por su uso para la medición de los ingresos y gastos de los hogares y de la pobreza, es la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) realizada por el INEGI cada 2 años. Su última edición se llevó a cabo entre agosto y noviembre de 2022 y se recolectó información para una muestra de 90,102 hogares, los cuales, después de aplicarles su factor de expansión, son representativos de 37.6 millones de hogares. Por ejemplo, el primer hogar reportado en la ENIGH 2022 habita una vivienda ubicada en el municipio de Aguascalientes del estado de Aguascalientes, el cual tiene asignado un factor de expansión de 206. Es decir, la información de ese hogar representa la información de 206 hogares en México que tienen condiciones socioeconómicas similares.5

  1. ¿Qué regula el INE?

El INE regula la publicación de encuestas electorales desde 1994. Según el artículo 136 y el Anexo 3 del Reglamento de Elecciones, la principal obligación legal de quienes publican encuestas sobre preferencias electorales es entregar al INE el estudio completo que respalde los resultados. Así, el objetivo de la regulación es que, quienes ordenen o publiquen encuestas y sondeos de opinión, detallen su metodología y la tabla de datos con las variables publicadas.6

En su portal, el INE reporta información de un total de 25 empresas que han entregado estudios o encuestas electorales para el proceso electoral 2023-2024.7 De estas, sus estudios o encuestas son representativas a nivel nacional, tienen reportado algún levantamiento en 2024 y existe información detallada de su metodología para los casos reportados en la siguiente tabla.

Detalles metodológicos de los estudios o encuestas con representatividad nacional entregados al INE 

No.EncuestadoraMétodo de recolecciónMarco muestralDefinición de la población que se pretende replicarReportan factor de expansión o ponderador
1Campaigns & Elections600 entrevistas telefónicas robotizadas en febrero de 2024Muestreo probabilístico de acuerdo con el peso nominal de cadamunicipio.Mayores de 18 años conmayor grado de escolaridadNo
2De las Heras Demotecnia1,400 entrevistas en vivienda en marzo de 2024Muestreo probabilístico de acuerdo con el peso nominal de cadauno de 7 estratosMayores de 18 años con credencial de electorNo
3Enkoll814 entrevistas en vivienda en febrero de 2024Muestreo probabilístico polietápico de acuerdo con el peso nominalMayores de 18 años con credencial de elector
4Consulta Mitofsky1,600 entrevistas en vivienda en marzo de 2024Muestreo probabilístico de acuerdo con el peso nominal de cadauno de 160 secciones electoralesMayores de 18 años con credencial de elector
5FactoMétrica1,200 entrevistas telefónicas con operador en enero de 2024Muestreo probabilístico estratificado (geográfico,género y edad)Mayores de 18 añosNo
6TResearch2,000 levantamientos a través de correo electrónico, redes sociales y sitio oficial www.TResearch.Mx en marzo de 2024Muestreo multicuotas propensity weightingMayores de 18 años con acceso a internet en dispositivos fijos omóviles
7El financiero1,000 entrevistas telefónicas en febrero de 2024NDMayores de 18 años
8MEBA1,500 entrevistas efectivas en vivienda en enero de 2024Muestreo probabilístico estratificado por circunscripción electoral cruzada con tipo desección electoralMayores de 18 años con credencial de elector
9Buendía & Márquez1,000 entrevistas en viviendaMuestreo estratificado, sistemático y con probabilidad proporcional al tamaño de la lista nominalMayores de 18 años
10Covarrubias y Asociados1,500 entrevista en vivienda en febrero de 2024Muestreo probabilístico polietápicoMayores de 18 años
11VOTIA1,200 entrevistas telefónicas en febrero de 2024Muestreo aleatorio y estratificado; iniciando con el municipio y continuando con la coloniaMayores de 18 años con credencial de elector, ubicados en domicilios con números telefónicos incluidos en el directorio telefónico residencial de TELMEX
12CIPRESO2,449 encuestas electrónicas por autollenado a través de Meta (2,059) y llamadas telefónicas (390) en marzo de 2024Muestreo aleatorio y estratificado por códigos postalesMayores de 18 años
13GEA-ISA1,070 entrevistas efectivas en domicilio en marzo de 2024Muestreo probabilístico de acuerdo con el peso nominal de cadauna de las 107 secciones electorales.Mayores de 18 años con credencial de elector
14Berumen y Asociados1,800 entrevistas en vivienda en marzo de 2024Muestreo aleatorio con probabilidad proporcional al tamaño de la lista nominalMayores de 18 años con credencial de elector

Fuente: Elaboración propia con información del INE, disponible en: https://www.ine.mx/encuestas-proceso-electoral-2023/, consultado el 3 de mayo de 2024.

De acuerdo con el sitio del INE, de las 14 empresas para las que se reporta información metodológica—y que mostramos en la tabla anterior—, 8 realizaron sus levantamientos en vivienda y el resto mediante algún procedimiento telefónico, en redes sociales o internet. La gran mayoría reporta usar algún método de selección de muestra basado en métodos probabilísticos. Casi en todos los casos la población objetivo fue adultos mayores de 18 años con credencial de elector—con algunos casos particulares en los que se limita la población a condiciones específicas como las de tener acceso a internet o dispositivos móviles, o algún grado de estudios—. Finalmente, en 11 casos se reporta un factor de expansión o ponderador. Nuestro análisis se centra en esos casos en los que se reporta un factor de expansión y en qué los datos colectados, según la metodología entregada por las encuestadoras, replican a una población objetivo de adultos mayores de 18 años con credencial de elector—es decir, un conjunto de población que puede interpretarse como el padron electoral.

  1. ¿Las encuestas son representativas del padrón electoral?

El padrón electoral del INE es el registro de toda la población que solicitó su inscripción al mismo en territorio nacional y el extranjero con la finalidad de obtener su credencial para votar con fotografía.8 En este 2024, el INE reporta que el padrón lo componen un total de 100,033,050 de personas y en el territorio nacional sólo 98,552,708 de personas (Padrón Electoral 2024).9 Las siguientes gráficas muestran la distribución del Padrón Electoral 2024 de acuerdo a rangos de edad y sexo de las personas, y el Padrón Electoral 2024 de acuerdo a rangos de edad de las personas.

Distribución del Padrón Electoral 2024 por rangos de edad y género

Las encuestas son representativas
Fuente: Elaboración propia con información del INE, disponible en: https://www.ine.mx/wp-content/uploads/2024/04/PE-y-LN_Nacional-Extranjero_27-03-2024.xlsx.

Distribución del Padrón Electoral 2024 por rangos de edad

Las encuestas son representativas
Fuente: Elaboración propia con información del INE, disponible en: https://www.ine.mx/wp-content/uploads/2024/04/PE-y-LN_Nacional-Extranjero_27-03-2024.xlsx.

Derivado de la revisión de la información entregada por parte de las encuestadoras al INE, consideramos que se puede analizar y comparar la información de la última encuesta entregada por cada una de las 7 empresas: Enkoll, Consulta Mitofsky, El financiero, MEBA, Buendía & Márquez, Covarrubias y Asociados, y CIPRESO. Esto, considerando que son las empresas que reportan en sus tablas de datos el factor de expansión o el ponderador, una población objetivo similar y la edad o los grupos de edad de las personas encuestadas.

Nuestra propuesta es hacer el siguiente ejercicio. Comparemos la población que replican cada una de las encuestas con el Padrón Electoral 2024. La forma más simple de hacerlo es sobreponer la gráfica del Padrón Electoral 2024 con la gráfica que resulta de los datos de cada una de las encuestas. Así, será posible observar a simple vista que tanto se parece la población que dice o pretende replicar la encuesta (el Padrón Electoral 2024) con la que verdaderamente se puede replicar de los datos que entregaron al INE las encuestadoras.

Las siguientes gráficas muestran un comparativo de la población que es posible replicar con el último levantamiento de encuesta disponible para cada una de las empresas mencionadas, y el Padrón Electoral 2024—población objetivo de todas las encuestas—. Considerando los diferentes grupos de edad, en todos los casos existen diferencias notables entre la población que replican (las barras en la gráfica) y el Padrón Electoral 2024 (marca triangular en color negro). Estas diferencias se mantienen a pesar de que los datos se agrupen sin considerar el sexo de las personas.

En otras palabras, derivado de inspección visual, ninguna encuesta podría representar las preferencias electorales, así, en general. En cambio, lo cierto, es que cada una de ellas podría representar a un segmento o parte de la población y, difícilmente, podrían ser comparables entre ellas. Esta situación es como las letras chiquitas de los contratos, por lo que el público en general debería conocer y entender estas diferencias.

Distribución de la población replicada por cada encuesta por rangos de edad y género en comparación al Padrón Electoral 2024

¿Las encuestas son representativas?
Fuente: Elaboración propia con información del INE, disponible en: https://www.ine.mx/encuestas-proceso-electoral-2023/, consultado el 3 de mayo de 2024.

Distribución de la población replicada por cada encuesta por rangos de edad en comparación al Padrón Electoral 2024

Fuente: Elaboración propia con información del INE, disponible en: https://www.ine.mx/encuestas-proceso-electoral-2023/, consultado el 3 de mayo de 2024.

Para sustentar esta observación planteamos una prueba estadística basada en las desviaciones de los valores del número de personas por rangos de edad en el Padrón Electoral 2024 y el número de personas por rangos de edad en la población que trata de replicar cada una de las encuestas.10 Esta prueba está basada en una prueba Chi-cuadrado de Pearson con 11 grados de libertad—es decir, el número de categorías o rangos de edades menos uno (1)—. Esta prueba consiste en probar la hipótesis de que el número de personas por rangos de edad replicado a partir de las encuestas es igual al número de personas en el Padrón Electoral 2024. La prueba busca mostrar si la suma de las desviaciones al cuadrado entre las frecuencias observadas (hi) y las frecuencias bajo la hipótesis nula (pi) son significativamente diferentes de cero. Así, si se acepta la hipótesis nula, podemos afirmar que los datos de la encuesta son suficientes para replicar al Padrón Electoral 2024, por el contrario, si se rechaza, podemos afirmar que los datos de la encuesta no son suficientes.

De esta manera, el estadístico de prueba será:

2=i=18-1865-100hi-pi2pi

De acuerdo con la siguiente tabla, existen indicios de que ninguna de las encuestas es capaz de replicar el Padrón Electoral 2024—ver la última columna donde se indica si se acepta o rechaza la hipótesis nula planteada—. Esto, independientemente de si se consideran los grupos de edad considerando el sexo de las personas o si se agrupan a las personas por rangos de edad sin considerar su sexo.

Resultados de la implementación de la prueba estadística

Empresa encuestadoraGrupoEstadística 2 (significancia)Conclusión de la prueba
EnkollMujeres3,112,541***No replica al Padrón Electoral 2024
Hombres2,052,502***No replica al Padrón Electoral 2024
Total1,628,201***No replica al Padrón Electoral 2024
Consulta MitofskyMujeres3,278,309***No replica al Padrón Electoral 2024
Hombres4,154,185***No replica al Padrón Electoral 2024
Total3,918,335***No replica al Padrón Electoral 2024
El FinancieroMujeres4,700,003***No replica al Padrón Electoral 2024
Hombres13,268,544***No replica al Padrón Electoral 2024
Total14,951,428***No replica al Padrón Electoral 2024
MEBAMujeres590,060.8***No replica al Padrón Electoral 2024
Hombres607,043.5***No replica al Padrón Electoral 2024
Total1,196,820***No replica al Padrón Electoral 2024
Buendía & MárquezMujeres1,341,220***No replica al Padrón Electoral 2024
Hombres2,081,296***No replica al Padrón Electoral 2024
Total1,144,147***No replica al Padrón Electoral 2024
Covarrubias y AsociadosMujeres345,407.4***No replica al Padrón Electoral 2024
Hombres1,998,536***No replica al Padrón Electoral 2024
Total849,401.3***No replica al Padrón Electoral 2024
CIPRESOMujeres2,4900,144***No replica al Padrón Electoral 2024
Hombres14,7826,574***No replica al Padrón Electoral 2024
Total89,814,119***No replica al Padrón Electoral 2024

Fuente: Elaboración propia. Nota: *** sig. al 99%.

Tras revisar los resultados de la prueba estadística, concluimos—coincidentemente con la inspección visual—que ninguna de las encuestas analizadas logra replicar adecuadamente la distribución del Padrón Electoral 2024. Por consiguiente, los resultados obtenidos no son representativos de la población, ni al evaluar por género ni en la evaluación global.

Esta metodología estadística ofrece un análisis más riguroso en comparación con simples representaciones gráficas de distribuciones, ya que permite discernir diferencias significativas entre grupos de edad y determinar su similitud con la distribución real del padrón. La relevancia de este hallazgo es crítica, considerando que los resultados de estas encuestas se utilizan frecuentemente para fundamentar propaganda y afirmaciones políticas que nunca distinguen entre encuestas; asumiendo que cualquiera de ellas—cuando son colectas en viviendas—son validas estadísticamente. Por el contrario al uso común de las encuestas, dada la falta de representatividad, estas no reflejan fielmente las opiniones y percepciones del electorado mexicano.

  1. Discusión final

En este breve estudio, proponemos un ejercicio analítico donde se compara la población replicada a partir de los datos de las encuestas con el Padrón Electoral 2024, ya sea por rango de edad y sexo o solo por rango de edad. En nuestra opinión, el ejercicio de análisis visual de las gráficas que proponemos debería ayudar a los lectores a apreciar la variabilidad entre las encuestas y, por ende, cuestionar la validez de sus resultados.

Al analizar los datos públicos disponibles de estas encuestas, nos surgen algunos puntos por aclarar. Primero, observamos que la mayoría de estas encuestas incluyen entre 1,000 y 1,500 participantes, una muestra relativamente pequeña para garantizar representatividad, pero que, según la teoría del muestreo, debería ser suficiente. Sin embargo, ¿por qué esa muestra no es suficiente para replicar a la población objetivos? Segundo, los ponderadores aplicados no se justifican adecuadamente en las metodologías de las encuestadoras, lo que complica la interpretación de quiénes están siendo representados de manera proporcional y, por ende, cuáles opiniones importan más en las encuestas. Tercero, y más importante, a pesar de la disponibilidad pública de los datos, existe una falta de transparencia sobre los métodos empleados en la recolección y análisis de los datos. Las encuestadoras frecuentemente omiten mencionar que sus datos pueden no ser representativos de la población general, y dentro de sus propios conjuntos de datos, es común encontrar discrepancias significativas en cómo se formulan las preguntas. No obstante, dado nuestro análisis, parecería que esa discusión es fútil, en tanto no resolvamos sí esas encuestas son comparables en términos de la población que representan.

Por el bien de una divulgación transparente y rigurosa, es crucial que las encuestadoras detallen más sobre sus cómo utilizan los datos y cómo construyen los ponderadores y factores de expansión para garantizar la transparencia y la confiabilidad de los resultados publicados. En contextos críticos como las elecciones presidenciales, la exactitud de esta información puede tener efectos profundos en la conversación pública, la toma de decisiones del electorado y, en suma, la dinámica electoral. En una era donde la información es ampliamente accesible y se disemina rápidamente, encontrar rigor científico es desafiante, pero sus implicaciones para la democracia son profundas.

El propósito de este trabajo no es influenciar el resultado electoral ni asegurar la victoria de algún partido sobre otro, sino destacar la importancia de la rigurosidad científica en la sociedad, especialmente cuando se trata de información que impacta directamente la vida de las personas.


1 Según el portal Oraculus y su agregador de encuestas, a mayo de 2024, Claudia Sheinbaum tenía una preferencia de 57%, Xóchitl Gálvez una de 35% y Jorge Álvarez una de 9%. Información visible en: https://oraculus.mx/presidente2024/, consultado el 13 de mayo de 2024.

2 Información visible en: https://www.amai.org/glosarioOpinion.php, consultado el 3 de mayo de 2024.

3 Información visible en: https://catalog.ihsn.org/index.php/catalog/5265/download/64548, consultado el 3 de mayo de 2024.

4 Información visible en: https://www.questionpro.com/blog/es/ponderacion/, consultado el 3 de mayo de 2024.

5 Información visible en: https://www.inegi.org.mx/programas/enigh/nc/2022/, consultado el 3 de mayo de 2024.

6 Información visible en: https://www.ine.mx/la-regulacion-encuestas-electorales/, consultado el 3 de mayo de 2024.

7 Información visible en: https://www.ine.mx/encuestas-proceso-electoral-2023/, consultado el 3 de mayo de 2024

8 Información visible en: https://www.ine.mx/credencial/estadisticas-lista-nominal-padron-electoral/, consultado el 7 de mayo de 2024.

9 Información visible en: https://www.ine.mx/wp-content/uploads/2024/04/PE-y-LN_Nacional-Extranjero_27-03-2024.xlsx, consultado el 7 de mayo de 2024.

10 Este tipo de pruebas no suele considerarse como una prueba concluyente de la mala calidad de los datos, ya que la deficiencia podría deberse a cambios estructurales en el conjunto de datos. Una desviación significativa de los datos observados puede considerarse como un indicio de que se necesita una inspección más detallada y más pruebas sobre los datos. Tal y como lo reportan Rauch, B., Göttsche, M., Brähler, G., y Engel, S. (2015). “Measuring the quality of european statistics”. En S. J. Miller, Benford’s Law: Theory and Applications (págs. 235-256). Princeton: Princeton University Press.


*Benjamín Oliva Vázquez: profesor en la Facultad de Economía de la Universidad Nacional Autónoma de México (UNAM) y el Centro de Investigación y Docencia Económicas (CIDE), y consultor.

*Marcos Emiliano Pérez Caullieres: estudiante de octavo semestre de la Licenciatura en Economía del CIDE.

El proceso seguido por los autores para realizar este análisis puede ser consultado aquí.

Serendipia es una iniciativa independiente de periodismo de datos. Puedes apoyarnos compartiendo nuestras notas, suscribiéndote en YouTube o ayudarnos de otras maneras .

Comentarios

2 comentarios en la nota: ¿Las encuestas son representativas de las preferencias del electorado?


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


  1. Danae... dice:

    Excelente investigación!!! Excelente explicación..! 💛💛💛