Quizás algunos saben que desde 2020 dirijo una encuesta bajo el proyecto La Cosa Nostra. La comenzamos a ejecutar poco antes del plebiscito de 2020 y aunque nuestro interés estaba mucho más allá de las predicciones, habrá que decir que en la proyección de resultados de los eventos electorales nos ha ido muy bien. Tan bien que somos la encuesta más precisa si revisamos todos los procesos electorales desde el plebiscito de 2020 hasta el plebiscito de 2023.
La encuesta se financia por las personas que se inscriben al acceso anticipado a los resultados. Esa es la forma que tienen esas personas de apoyar este proyecto, cosa que agradecemos profundamente, pues han hecho posible una tarea muy difícil.
El sábado 11 de mayo presentamos resultados y en esta columna pensé, en principio, en hacer un resumen de dichos resultados, pero debo decir que en el camino de redactar la columna quise explicar qué factores hacen mejor o peor una encuesta. Y de ahí no pude salir, por las razones que explicaré.
Y es que me metí en el tema de la calidad de nuestras encuestas y todo fue modificado. Este párrafo que ahora escribo lo hice al final. Y todo ocurrió porque iba a explicar algunos aspectos de distintas metodologías que se usan en encuestas para poder explicar cómo operamos en la encuesta nuestra y me encontré con un documento que explica la metodología de Cadem, un documento de 2022.
Quedé impactado. Porque el documento nos muestra que la encuesta más influyente en la actualidad, explica su propia metodología caracterizando su procedimiento con los más altos conceptos que la estadística reserva para un trabajo de encuesta, y resulta ser que no es algo cierto.
Y esta autocalificación de Cadem va más allá de los resultados (que son pobres, pues aparece en el séptimo lugar en precisión predictiva ante eventos electorales).
El problema más grave no es si le va bien o no con respecto a la realidad, sino que se encuentra en la calidad de sus propias explicaciones del método.
Ya veremos los detalles. De momento, los siguientes párrafos son lo que estaba redactando desde el inicio. Al final retomaré el tema original.
Una buena encuesta
Contrario a lo que se piensa, una buena encuesta no está hecha solo de una buena muestra y una gran cantidad de casos entrevistados. Una encuesta supone una metodología, dentro de la cual un factor es la estadística y el otro es el diseño de la investigación en general, que incluye el diseño de cuestionario, el plan de análisis y la ejecución de éste. Si se va a tomar un resultado y se convierte en gráfico, la verdad es que el proceso investigativo todavía es pedestre.
Lo que sí es cierto, es que la prolijidad de la muestra es una exigencia fundamental, incluso cuando se trata de muestras no probabilísticas, como son la mayoría de las encuestas que se realizan. Respecto a la cantidad de casos, solo sabemos que (en el marco de una encuesta probabilística) un aumento en ellos aumenta la precisión (no la validez, que simplemente existe o no existe).
Pero también sabemos que el aumento de la precisión es relativamente ineficiente: una duplicación del tamaño de la muestra no aumenta al doble la precisión. El beneficio de aumentar la muestra es discreto.
El amor por las muestras de mil casos o más, suele ser pensamiento mágico, salvo que se requiera hacer análisis detallado de grupos dentro de la muestra. Y allí el número a requerir puede ser mucho más alto.
¿Qué incide entonces en la calidad de una encuesta? Los procedimientos de construcción de cuestionario son habitualmente lo más importante.
Los investigadores solemos cometer errores en ellos: la definición de la redacción, el orden de las preguntas, alternativas múltiples o solo una, tipo de categorías de respuestas. En fin, son algunos de los problemas habituales que se enfrentan. Por eso, los sistemas de redacción que son permeables a la injerencia de requerimientos externos, donde habitan presiones de qué medir, pueden generar imperfecciones importantes. Es irónico, pero además las marcas más conocidas comienzan a ser portadores de cierto sesgo y ello gira la tendencia de las respuestas que se reciben.
En resumen, el gran problema es el sesgo.
La encuesta CEP
Todos coincidimos que la mejor muestra es la de la encuesta CEP, pero su cuestionario otorga pocos datos útiles a estas alturas. No todo es su responsabilidad: muchas encuestas miden lo mismo (la creatividad no ha sido una fortaleza del mercado) y en muchos casos la encuesta del CEP se transformó en una institución tan relevante que sus preguntas se tornaron canon.
La encuesta del CEP, en cualquier caso, ha reducido su influencia de modo significativo.
Los miembros del sistema político antes intentaban incidir en la época del terreno de la encuesta, para así mejorar sus puntajes. Es la locura constante de usar la encuesta como mecanismo de crecimiento político y no como medición de la realidad: una cultura ciertamente inmoral, pero políticamente útil. En cualquier caso, esos esfuerzos ya no se hacen tanto.
La Encuesta del CEP sigue siendo la más importante. Es la que tiene más garbo, pero no la más influyente. Este título es ostentado por la encuesta Plaza Pública de Cadem.
Plaza Pública de Cadem: vicios metodológicos de la encuesta más influyente
Cuando nació reiteré hasta el cansancio que sus estándares eran inadecuados (yo era panelista semanalmente en el programa Ciudadanos de CNN y allí me tocaba reiterar la crítica semana tras semana). Seguramente recordará Daniel Matamala que cada vez que alguien en el programa citaba el dato, me encargaba de señalar mis inquietudes y objeciones.
Roberto Izikson me invitó un café (corría diciembre de 2014) para mostrarme sus protocolos (y para que no dijera de nuevo lo que estaba diciendo). Llevó muchos papeles y me los fue exponiendo detalladamente. Le dije que lo explicado era distinto a lo que aparecía en la web. Es decir, que era un poco mejor de lo que estaba escrito y que sería bueno que modificara lo escrito si es que la metodología había cambiado. De todos modos, insistí que el método me parecía inadecuado. El principal problema es que usaba distintos marcos muestrales, sin contar varios problemas de construcción de preguntas.
Me ofreció incluso validar los resultados entregándole preguntas mías para cotejar con mis propias encuestas. Le contesté que apenas hiciera una encuesta le avisaría, cosa que hice, mandándole las preguntas. Pero no respondió.
Si uno revisa las últimas explicaciones sobre su metodología, Cadem llega a ufanarse vergonzosamente de atributos que en realidad no tiene. Es cierto que Cadem es mucho menos mala de lo que mucha gente que la odia -desde la izquierda- dice. Pero también es cierto que es infinitamente inferior a lo que dice ser y es muy lamentable que sea un punto de referencia en asuntos de gobierno.
¿Por qué digo que es tan grave lo que se aprecia en las propias explicaciones de la metodología de Cadem?
Resulta que en 2022 Cadem publicó una detallada explicación de su metodología. El extenso documento (ver aquí) muestra toda clase de detalles, pero está completamente equivocado. O el profesional que diseñó la encuesta no sabe de lo que habla o lo sabe y miente. No hay alternativa. Un ejemplo burdo es el siguiente:
“Nuestro tracking es la única encuesta de opinión disponible para el público realizada 100% a través de entrevistas telefónicas a celulares, y por lo tanto, totalmente probabilística. Realizamos 700 encuestas semanales (con un consolidado mensual que va desde las 2800 a las 3500 encuestas, dependiendo de si el mes tiene 4 o 5 semanas), utilizando una base de datos propia que contiene más de 18 millones de números tanto de prepago como de post pago, todos ellos obtenidos a través de Random Digit Dialing, y consolidados durante los últimos años”.
Cadem dice que su encuesta Plaza Pública es probabilística. Es decir, están afirmando que logran sacar cada semana una encuesta probabilística de 705 casos. Dicen que su muestreo probabilístico es estratificado.
¿Qué es eso? Se trata de que, antes de hacer la selección aleatoria (sorteo), se ejecutan divisiones de estratos según variables que se han definido: ¿clase social? ¿región? ¿edad? Los estratos no pueden compartir casos, son excluyentes. Eso significaría que Cadem tiene preclasificado a todo su marco muestral. ¿Es así? La verdad es que eso es altamente improbable. Por mi parte, tengo la convicción de que no lo tienen hecho.
El marco muestral
El marco muestral son los elementos desde los cuales sacaré la muestra. Si un supermercado quiere saber datos sobre las características que tiene su venta prototipo (es decir, el tipo de ticket más representativo de sus ventas, por ejemplo, un ticket de $8200 pesos, con x% de venta de alimentos más y% de artículos de aseo), entonces el marco muestral tendrían que ser todos los ticket emitidos por ventas en el mes o en el período que se fije. Y desde ese marco muestral se saca una muestra. Y es que no necesito analizar miles de boletas, me basta para ello con ejecutar una operación de análisis de una muestra de 500 casos. ¿Y cómo selecciono? Al azar, no necesito más.
Con una muestra de un tamaño suficiente, no hay razón para que haya desviaciones relevantes en mi medición respecto a la realidad.
Volvamos. Cadem tiene un listado de teléfonos celulares. Ese es su marco muestral. Y dice que la muestra es estratificada por regiones. Y que al final es ponderada por sexo, edad y regiones. Me demoraría varias horas en explicar la cantidad de cosas absurdas que hay aquí. Y yo no soy estadístico. Un experto en estadística llegaría más lejos.
¿Confusión o engaño?
La encuesta Cadem se hace así, según dicen:
1) Tienen una base de datos de teléfonos móviles.
2) Saben la región de cada teléfono
3) Estratifican grupos de números telefónicos según la región a la que pertenecen (proporción a la población de la región).
4) Seleccionan una muestra de casos a entrevistar por región al azar. Al parecer eligen de una vez una muestra cinco veces más grandes por los casos que no responden.
5) Obtienen resultados en una base de datos.
6) Al procesar los datos ponderan de acuerdo a la población del censo para ajustar en torno a las variables sexo, edad y regiones.
7) La encuesta está lista.
Los problemas detectables están en 1, 2, 3 y 6. Tengo dudas en 4 y 5. Y si los problemas que veo existen, entonces 7 no es real.
Hay muchas preguntas. ¿Es verdad que tienen una base de datos de teléfonos móviles que garantice las condiciones de un marco muestral? Y es que los teléfonos no son lo que queremos investigar, por lo que el listado debe ser de personas con su teléfono. Parece tonto, pero es esencial.
Si el teléfono no es unipersonal, no sirve (y se daña la muestra, no solo el caso). Si la persona tiene dos teléfonos y ambos están en el listado, ya no es posible una muestra probabilística (esa persona tiene dos veces más probabilidad de ser seleccionada que otros).
Y luego, ¿sabemos la región de estas personas? Y si es así, ¿por qué si sabemos la ubicación regional debemos ponderarla después? Y la ponderación está mal. En un proceso estrictamente probabilístico la ponderación no existe o, al menos, no se hace con datos externos. Lo que se hace es un procedimiento en el que cada caso representa a un número de la población según su probabilidad de selección.
Estoy seguro de que esto no es lo que ocurre.
El texto metodológico de Cadem es arbitrario en sus afirmaciones y pretende ser lo que no es. Atribuye el carácter probabilístico al hecho de operar por encuestas telefónicas. Una encuesta probabilística es un desafío mayúsculo, de costos ingentes y de aplicación muy lenta. Supuestamente Cadem lo hace barato y rápido.
Esto parece una broma, pero es crucial porque una muestra probabilística es una creatura sensible que deja de ser probabilística por distintas razones. Pero Cadem va más allá. Nuevamente no sé si es confusión o derechamente engaño.
Cito el documento:
“El grupo objetivo de Plaza Pública son personas que viven en el territorio nacional, chilenos e inmigrantes, hombres y mujeres de 18 años o más, habitantes de las 16 regiones del país. De acuerdo con lo anterior, se realizó una estratificación previa del total de la población a partir de las proyecciones de población del INE para el año 2022, según el último CENSO disponible (2017). La Tabla Nº1 presenta la población de 18 o más años para cada región del país al 2022 y su peso dentro del total, así como la cantidad de encuestas propuestas para cada región permitiendo cumplir la proporcionalidad nacional. Las comunas por su parte serán seleccionadas de forma aleatoria”.
Hay varias formas distintas de hacer lo que se dice. Y ninguna parece seguir un protocolo muy claro. Y si lo hay, no es probabilístico.
¿Es grave que la encuesta no sea probabilística?
La verdad es que es bastante normal que se estén usando muestreos no probabilísticos. Eso desde hace años. Permite bajar los costos y eso no es menor investigativamente: puedes hacer más encuestas, más preguntas, probar nuevos cuestionarios y operas con mayor velocidad. Y como he dicho, el problema principal no está solo en la muestra. El asunto es otro.
¿Qué pasa con una empresa de investigación que ofrece algo que dice ser metodológicamente algo que no es?
Bueno, al final no pude avanzar más lejos. Me he quedado con el análisis somero de la metodología de Cadem. Vale la pena agregar que probablemente muchos de los vicios sean compartidos por otros proyectos. De hecho, seguramente usted ha visto con frecuencia que ciertas encuestadoras hablan de margen de error y ello solo se puede señalar si es que la muestra ha sido probabilística. Y, como hemos dicho, la mayor parte de las encuestas no lo son. La mía tampoco, pero de hecho escribo en la presentación “encuesta no probabilística”.