México captura datos de COVID-19 con sistema diseñado hace 11 años: SSa

México datos COVID-19 sistema

Por

6 minutos, 12 segundos

Ricardo Cortés Alcalá, director general de Promoción de la Salud de la Secretaría de Salud, habla con Serendipia sobre cómo esta dependencia publica los datos abiertos sobre casos detectados de COVID-19.

Los datos sobre contagios y muertes de COVID-19 en México han sido cuestionados por medios nacionales e internacionales, así como investigadores y exfuncionarios federales: ¿hay un subregistro? ¿La manera de medirlos es la correcta? ¿El gobierno miente? Algo es seguro: el sistema con el que el gobierno federal captura esta información fue diseñado hace 11 años, durante la pandemia de influenza AH1N1.

Ese es otro de los rubros en el que México no estaba preparado para enfrentar una pandemia: los datos. El gobierno no tiene un sistema que permita capturar de la mejor manera los datos estatales para su uso al interior del gobierno federal, y tampoco existía la cultura institucional que permitiera la liberación de los mismos en formato abierto para garantizar el derecho de acceso a la información de los ciudadanos.

Serendipia habló con Ricardo Cortés Alcalá, director general de Promoción de la Salud, sobre cómo la dependencia federal decidió publicar esta base de datos y cómo es el sistema con el que el gobierno federal recopila esta información. Un sistema que, adelanta el funcionario, pronto será reemplazado.

“Esto nunca se había hecho”

La Secretaría de Salud (SSa) de México publica de manera diaria una base de datos abiertos con los casos detectados y sospechosos de COVID-19 desde el 13 de abril. “Esto es un logro de ustedes (las personas que pidieron la publicación de los datos abiertos). Esto nunca se había hecho, en ninguna de las administraciones, incluyendo en las que nosotros trabajamos también hace 10 años (durante la pandemia de influenza AH1N1)”, dice Ricardo Cortés en entrevista telefónica para Serendipia.

Antes del 13 de abril, la SSa publicaba dos tablas en formato PDF: una de casos confirmados y otra de casos sospechosos de COVID-19. “El formato PDF es una costumbre que ha tenido desde hace muchos años la DGE. Los anuarios de morbilidad que tienen datos desde 1984, están en formato PDF”, dice Cortés Alcalá.

Tabla de casos confirmados de COVID-19. Imagen: SSa.

El director general de Promoción de la Salud de la SSa dice que la publicación de esta base de datos en formato abierto generó un cambio cultural en la Dirección General de Epidemiología (DGE) de la dependencia federal.

Cuando inició la pandemia de COVID-19 en México y con ella las conferencias diarias a las 7 de la noche a cargo de la SSa, Ricardo Cortés abrió una cuenta de Twitter institucional, a través de la cual empezó a recibir mensajes de usuarios de esa red social que pedían que la base de datos se publicara en formato abierto para facilitar su uso.

“La verdad es que yo no tenía mucha idea de que existiera una comunidad tan amplia y tan variada (en México) que se dedique a descargar datos abiertos de cualquier fuente y a hacer análisis. Entonces le dije al doctor (Hugo) López-Gatell -el subsecretario de Prevención y Promoción de la Salud- y me dijo, ‘pues vamos a darle'”.

Así fue como la SSa hizo lo que nunca había hecho: empezó a publicar de manera diaria la base de datos sobre una pandemia en formato abierto.

¿Cómo captura México los datos de COVID-19?

El sistema para capturar los datos sobre COVID-19 está en línea y opera en tiempo real, explica Cortés. En 2009, durante la pandemia de influenza, no existía en México un sistema con esas características, y el gobierno lo desarrolló para atender esa emergencia sanitaria.

Ahora, 11 años más tarde, es ese mismo sistema el que el gobierno federal utiliza para recibir los datos de las 32 entidades federativas y procesarlos.

Para utilizarlo, Cortés Alcalá explica que el gobierno federal (a través de la DGE) capacita a los funcionarios estatales. Al inicio de la pandemia de COVID-19 fue necesario hacer una nueva capacitación porque los síntomas por medio de los cuales es posible clasificar esta enfermedad son diferentes a los de influenza, que era la enfermedad para la que se había capacitado al personal.

“La Dirección de Información Epidemiológica tiene alrededor de 50 o 60 personas, que son quienes reciben y hacen el corte a las 14 horas (el Comunicado Técnico diario indica que el corte es hecho a las 13 horas) y empiezan a revisar la información para presentarlo todos los días a las 7 (en la conferencia de prensa)”, dice Cortés Alcalá.

Entre 50 y 60 personas analizan los datos introducidos al sistema por las entidades federativas para presentar la información en las conferencias de las 7 de la noche. Foto: SSa.

Pero este sistema tiene algunas características que pueden ser mejoradas. Cortés dice que, por ejemplo, “debería tener las suficientes reglas de operación, reglas de negocio, para no permitirme poner un caso ambulatorio que está grave, porque si es caso ambulatorio no puede ser grave, y si está grave, no lo puedo mandar a su casa”.

A pesar de esto, Cortés Alcalá dice que el sistema es auditable: “sabemos quién registra cada caso por la clave que utiliza, entonces (si hay un error) le hablamos a esa persona y le pedimos que se vaya al expediente electrónico y lo revise para que haga la corrección (…). Al menos sí es lo suficientemente auditable para saber quién registró cada caso y quién hizo la modificación a solicitud de quién”.

Además de la antigüedad del sistema para capturar y publicar los datos, Ricardo Cortés dice que los propios funcionarios federales trabajan con equipos de cómputo “que tienen más de 10 años de vida y a lo que más se puede aspirar es a tener Excel (…) la adquisición de la tecnología ha sido una barrera impresionante a nivel gobierno desde hace muchos años”.

Una de las promesas del presidente López Obrador fue no comprar sistemas de cómputo durante el primer año de su administración, es decir, durante 2019. Esta decisión, que debió acatar todo el gobierno federal, significó que la SSa estuviera impedida de renovar equipos con una década de antigüedad precisamente antes de enfrentar la pandemia de COVID-19.

Para enfrentar esta limitación, Cortés dice que los funcionarios en la SSa han optado por utilizar tecnología abierta como el software de análisis de datos R, “que es gratuito y útil para estos propósitos”.

Después de identificar las deficiencias del sistema, la SSa lo cambiará por uno que se adapte a sus nuevas necesidades. Ricardo Cortés dice que estará listo en un par de semanas y que tendrá “buenas reglas de negocio” para no permitir los errores que hasta ahora han sido identificados. También dice que la SSa “probablemente” dará una nueva capacitación para utilizarlo.

Datos abiertos = menos solicitudes de información

El 17 de marzo, el periodista Francisco Parra le preguntó al subsecretario López-Gatell durante la conferencia de las siete de la noche si la SSa liberaría datos abiertos. La respuesta fue que no, y que quien quisiera tener la información en ese formato podía hacer solicitudes de acceso a la información.

El periodista Francisco Parra preguntó sobre la publicación de datos abiertos. Imagen: Twitter de Francisco Parra.

Ahora, casi dos meses después, Ricardo Cortés dice que el Instituto Nacional de Transparencia, Acceso a la Información y Protección de Datos Personales (INAI) contactó a la SSa para hablarle sobre transparencia proactiva. De acuerdo con Cortés, les dijeron que “este tipo de eventos son los que hacen llegar una avalancha de solicitudes (de acceso a la información pública), entonces nos recomendaron prepararnos, nos dijeron que los datos abiertos nos iban a ahorrar la mitad de las solicitudes que se harían a través del INAI”.

Cuando la SSa cambió de parecer y decidió publicar los datos abiertos, solicitó la asesoría del INAI para determinar qué variables del estudio epidemiológico contienen información pública: “Lo que hicimos fue enviarles el formato del estudio epidemiológico de caso formalmente por correo y nos regresaron un análisis completo con la variable que se investiga, si contenía datos que se pudieran considerar como confidenciales y si se podía o no publicar en datos abiertos”.

La SSa ha publicado la base de datos abiertos sobre casos de COVID-19 todos los días durante un mes. “Es difícil”, dice Cortés, “sobre todo porque no había esta costumbre. Hay que tener muchísimo cuidado, porque antes nada más hacías una corrida, seleccionabas unos campos, lo mandabas a PDF y listo, pero ahora hay que estar seguros de que no va ni un nombre, ni un domicilio, con un dato que se nos vaya de localización nos podemos ir a la cárcel”.

El director de área en la SSa se refiere a publicar datos personales de los pacientes, lo cual constituye un delito. Los datos contenidos en la base de datos son nominales, es decir, contienen detalles de cada caso; pero también son anónimos para proteger la privacidad de los pacientes y de las personas cuyo resultado a la prueba de laboratorio para esta enfermedad ha resultado negativa.

¿Por qué algunas variables no están en la base?

Desde que fue publicada la base de datos en formato abierto, Serendipia ha señalado que hay características de la base que no son claras, y que todavía hay algunas variables que pueden ser incluidas para obtener análisis más detallados. Ricardo Cortés respondió lo siguiente sobre las preguntas puntuales acerca de cada variable:

  • ¿Por qué la base no incluye la fecha de alta de los pacientes?
    “La proporción de registros a los que se les actualiza el estatus es bajo. Entonces a lo mejor ya los dieron de alta y en la base sigue como hospitalizado, o tal vez le pusieron que ya fue dado de alta pero no le pusieron la fecha”.
  • ¿Por qué la base no incluye el municipio de la unidad médica?
    “A nivel epidemiológico lo que buscamos es saber en dónde se da el contagio y establecer la actividad dentro del municipio en donde la persona regularmente vive (…). Además, desde la primera persona que lamentablemente falleció, su familia fue increpada por reporteros y reporteras”. Es decir, la decisión de no publicar esta variable busca proteger la privacidad de los pacientes.
  • ¿Por qué se utilizó el sistema hexadecimal para los identificadores?
    “Se usó porque quien lo hizo así no sabia que número de registros esperar y con este sistema tiene un número mayor de registros posibles”.

Serendipia es una iniciativa independiente de periodismo de datos. Puedes apoyarnos compartiendo nuestras notas, suscribiéndote en YouTube o ayudarnos de otras maneras .

Comentarios

5 comentarios en la nota: México captura datos de COVID-19 con sistema diseñado hace 11 años: SSa


Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *