La influencia del día de la semana en el número de casos COVID en Aragón. Un modelo basado en series temporales.

 

La influencia del día de la semana en el número de casos COVID en Aragón. Un modelo basado en series temporales.

 

Juan Arana Pérez
29/06/2021 
versión 1.00

Cómo varian los diagnosticos de COVID19 cada día de la semana.

Intuimos que ciertos dias de la semana aumentan sobre la media los casos de COVID mientras que otros dias, disminuyen. Por ejemplo, los martes suelen aumentar los casos respecto al lunes y los sábados suelen disminuir respecto al viernes.

De tal forma, el que haya habido un día 10 casos más que el dia anterior no significa que los contagios vayan a peor o que vayan a mejor si hay 10 casos menos que el día anterior.

En este artículo exponemos un modelo muy simple para precisar cuál es la variación media, al alza o a la baja, de cada día de la semana de los “nuevos casos en Aragón” que se notifican diariamente en la página transparencia.aragon.es [A]. Este modelo está basado en el concepto estadístico de “series temporales”. Para acabar, aplicaremos este modelo a otras series de datos.

Ir a los gráficos

1. Número de casos COVID en Aragón y series temporales

Las autoridades sanitarias de Aragón ofrecen un número de “nuevos casos” registrados cada dia, que son publicados al día siguiente en https://transparencia.aragon.es/COVID19 [A]. De estos datos se puede obtener un histórico (en el apartado CONSULTA LOS DATOS DE DÍAS ANTERIORES).

Por ejemplo, los “nuevos casos registrados” el lunes (por ejemplo, el 22/03/2021) se publican el martes (23/03/2021). Intuimos que una parte de las subidas y bajadas de estos nuevos casos tienen una periodicidad semanal y dependen de cada día de la semana (lunes, martes, etc.).

En este artículo hacemos siempre referencia al día en que se registran los casos, no al día en que se publican.

Siguiendo a Marín Diazaraque [2], cada caso de la serie de los “nuevos casos registrados” que depende de un día del calendario, se puede descomponer en tres componentes básicas:

1.1. Tendencia: Se puede definir como un cambio a largo plazo que se produce en relación al nivel medio, o el cambio a largo plazo de la media. La tendencia se identifica con un movimiento suave de la serie a largo plazo.

1.2. Efecto Estacional (Efecto del día de la semana): Muchas series temporales presentan cierta periodicidad o dicho de otro modo, variación de cierto periodo (anual, mensual ...). En los nuevos casos de COVID proponemos considerar la periodicidad semanal.

1.3. Componente Aleatoria: Una vez identificados los componentes anteriores y después de haberlos eliminado, persisten unos valores que son aleatorios.

De modo que los casos de un dia se pueden distribuir en tres sumandos:

    Xt = Tt + Et + It

Donde Xt son los nuevos casos del día t, donde Tt es la tendencia, Et es el efecto del día de la semana, e It es la parte aleatoria e impredecible (al menos, no podemos predecirlo con la información con que contamos)

Los casos que se producen el día t se publican el día siguiente, t+1. Por ejemplo, los datos publicados el miércoles son los del martes previo. Hemos considerado el día en que se producen los casos, no el día en que se publican.

 Hemos construido un modelo, sencillo, con estos objetivos:

a) Sea relativamente estable en el tiempo. En palabras de [1] “actualizar las hipótesis a lo largo del tiempo con nuevos datos y, como consecuencia, aprender de la evolución de la pandemia con el paso del tiempo”.

b) Que reduzca todo lo posible las variaciones del sumando aleatorio It con relación a las variaciones del número de casos Xt. En términos estadísticos se dice el la parte de varianza del sumando aleatorio sea la menor posible en relación con la varianza del número de casos.

c) Que sea muy fácil de aplicarlo a otras colecciones de datos dependientes de los dias. Que lo pueda hacer quien tenga una habilidad media en hojas de cálculo aunque no tenga conocimientos estadísticos.

 

2. Cálculo de los componentes del modelo.

Hemos construido el modelo de evolución del número de casos (Casos) como una serie temporal, de esta manera

2.a. Tendencia: Hemos tomado como Tendencia la medía móvil de 7 dias del número de casos (6 días anteriores más el actual). Estamos familiarizados con un concepto similar a éste, la IA7 (incidencia acumulada de los últimos 7 días por número de habitantes).

    Tt = (CSt + CSt-1 + CSt-2 + CSt-3 + CSt-4 + CSt-5 + CSt-6)/7

    CSt es el número de casos del dia t. t-1 el dia anterior etc.

Este valor está reflejado en la columna D del modelo de datos.

2.b. Efecto Estacional (Efecto del día de la semana):

Hacemos un cálculo un poco más complejo en varias etapas:

b.1 EDB (Efecto día en bruto): el número de casos de un día entre la tendencia

    EDBt = CSt / Tt

Ejemplos:

si tomamos en martes 20 de abril de 2021,

    CS=345

    MV=257,571

    EDB=345/257,571=1,339

El martes 20 de abril de 2021 ha habido un 33,9% de casos MAS sobre la tendencia.

si tomamos en lunes 19 de abril de 2021,

    CS=194

    MV=257,143

    EDB=194/257,143=0,756

El lunes 19 de abril de 2021 ha habido un 24,4% (100-75,6) de casos MENOS sobre la tendencia.

Este valor está reflejado en la columna E del modelo de datos.


b.2 Para calcular los excesos o defecto sobre la tendencia de un día (por ejemplo un martes o un lunes) calculamos la media aritmética de los “Efecto dia en bruto” de los dias homónimos de las cuatro semanas anteriores (los cuatro martes o cuatro lunes precedentes). Es el “Efecto_dia_promediado”, EDP (por ejemplo, del 20 de abril)

    EDPt = (EDBt-7 + EDBt-14 + EDBt-21 + EDBt-28)/4

Por ejemplo, el EDP de martes 20/04/2021 (martes)

    Efecto_dia_Promediado = 1,49976

    1,15889 = EDB del 23/03/2021

    1,51007 = EDB del 30/03/2021

    1,99092 = EDB del 06/04/2021

    1,33916 = EDB del 13/04/2021


De este modo calculamos los incrementos (o decrementos) que pudiera haber, en determinado día de la semana, en las 4 últimas semanas.

Este valor está reflejado en la columna F del modelo de datos.

b.3 Finalmente, esperaríamos que los Efectos_Dia_Promediado (EDP) de los últimos 7 días se equilibraran de modo que su suma fuera igual a 7. Los aumentos de algunos dias se corresponden con las disminuciones de otros.

Esto no es así en la realidad. Utilizamos el factor corrector de medias (CM)

    CMt = 7/(EDPt + EDPt-1 + EDPt-2 + EDPt-3 + EDPt-4 + EDPt-5 + EDPt-6)

por ejemplo, el valor del Corrector de Medias del 28/04/2021 será

    Corrector_medias_dia_28042021=

    7/(Suma (Efectos_dia_media desde en 22/04/2021 al 28/04/2021))=0,92523


Este valor está reflejado en la columna G del modelo de datos.


De tal forma que EDMC (Efectos_dia_media_corregida),


Efectos_dia_media_corregida = Efectos_dia_media * Corrector_medias_dia

No se consigue del todo que la suma de medias de los últimos 7 días sea 7 pero nos aproximamos mucho más que sin aplicar este corrector.

Este valor está reflejado en la columna H del modelo de datos.

b.4 Tras las anteriores etapas, el efecto día semana Et

    Et = EDMCt * Tt - Tt = (EDMCt - 1) * Tt

Este valor no está reflejado explícitamente en el modelo de datos. Uno de sus sumandos, EDMCt * Tt está reflejado en la columna J del modelo de datos.

2.c. Componente Aleatoria: Una vez identificados los componentes anteriores y después de haberlos eliminado, persisten unos valores que son aleatorios.

    It = Xt - Tt - Et

Este valor está reflejado en la columna I del modelo de datos.

3.a En el diagrama de barras de las figuras “a” los componentes están representados por estos colores

    Xt = Tt + Et + It

    Xt = Número de casos

    Tt = Tendencia (Media Móvil de 7 dias)

    Et = Efecto dia de la semana (Efectos_dia_media_corregida - 1) * Tt

    It = Parte aleatoria


3.b El diagrama de barras de la figura “b” representa los porcentajes del “Efecto dia de la semana” entre la “Tendencia”

Efecto día de la semana en % de la tendencia

    Efecto dia de la semana * 100 / Tendencia

 


3.1 Figura 1. Casos de COVID en Aragón en número y en porcentaje sobre la Tendencia (semana 24/05/2021).



Fig. 1a Casos COVID Aragón 24/05/2021
Fig. 1b Casos COVID Aragón. Porcentaje del efecto día semana sobre la tendencia 24/05/2021

3.2 Figura 2. Casos de COVID en Aragón en número y en porcentaje sobre la Tendencia (semana 26/04/2021). Los dos viernes que se contabilizan en esas medias fueron festivos: Viernes Santo 09/04/2021 y San Jorge, festividad de Aragón, 23/04/2021. Seguramente ese es el motivo del efecto negativo del viernes.

 


Fig. 2a Casos COVID Aragón 26/04/2021

Fig. 2b Casos COVID Aragón. Porcentaje del efecto día sobre la tendencia 26/04/2021

3.3 Figura 3. Casos de COVID en Aragón en número y en porcentaje sobre la Tendencia (semana 15/03/2021). Corresponde a la fase valle tras la ola de enero-febrero de 2021 y antes de las turbulencias de Semana Santa 2021.

 


 

Fig. 3a Casos COVID Aragón 15/03/2021

Fig. 3b Casos COVID Aragón. Porcentaje del efecto día sobre la tendencia 15/03/2021

 

A continuación mostramos la representación del Efecto día de la semana en otras series de datos. Solamente deseamos ilustrar la aplicación pero sin sacar conclusiones, para las que no disponemos de datos suficientes.

3.4 Figura 4. Casos de COVID en Guipúzcoa en número y en porcentaje sobre la Tendencia (semana 24/05/2021). Se puede apreciar un perfil mas suavizado que en la misma semana en Aragón (Fig 4b vs Fig.1b)


 

Fig. 4a Casos COVID Guipuzcoa 24/05/2021

Fig. 4b Casos COVID Guipuzcoa 24/05/2021. Porcentaje del efecto día sobre la tendencia

3.5 Figura 5. Número de test PCR + Antígenos notificados en Aragón y en porcentaje sobre la Tendencia (semana 24/05/2021). (PCR cargadas y Test de Antígenos realizados según la información diaria de https://transparencia.aragon.es/COVID19)


Fig. 5a Número de test PCR + Antígenos en Aragón 24/05/2021
Fig. 5b Número de test PCR + Antígenos en Aragón 24/05/2021. Porcentaje del efecto día sobre la tendencia

3.6 Figura 6. Positividad en Aragón y en porcentaje sobre la Tendencia (semana 24/05/2021).



 

Fig. 6a Positividad en Aragón 24/05/2021

Fig. 6b Positividad en Aragón 24/05/2021. Porcentaje del efecto día sobre la tendencia

3.7 Figura 7. Porcentaje de Antígenos sobre Antígenos+PCR en Aragón (semana 24/05/2021).



Fig. 7a Porcentaje de Antígenos sobre Antígenos + PCR en Aragón 24/05/2021

Fig. 7b Porcentaje de Antígenos sobre Antígenos+PCR en Aragón 24/05/2021 Efecto día sobre la tendencia

3.8 Figura 8. Porcentaje de Asintomáticos en Aragón (semana 24/05/2021).



Fig. 8a Porcentaje de Antígenos sobre Antígenos + PCR en Aragón 24/05/2021

Fig. 8b Porcentaje de Antígenos sobre Antígenos+PCR en Aragón 24/05/2021 Efecto día sobre la tendencia

3.9 Figura 9. Contagio origen Desconocido en Aragón (semana 03/05/2021).

El número de casos de contagio Desconocido va revisándose en dias posteriores. De modo que si un día hay 60 contagios de origen Desconocido, tres semanas despues pudiera haber 40. Hemos identificado revisiones de este indicador hasta seis semanas después. Por ese motivo hemos tomado una semana bastante anterior.

El resto de los origenes de contagio son laboral, social, escolar, domicilio, centro sociosanitario, centro sanitario y otros. 

El número de casos de contagio Desconocido en Aragón puede verse en:

https://datacovid.salud.aragon.es/covid/https://datacovid.salud.aragon.es/covid/ > Casos

Esta clasificación es la regulada por el documento ESTRATEGIA DE DETECCIÓN PRECOZ, VIGILANCIA Y CONTROL DE COVID-19 https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov/documentos/COVID19_Estrategia_vigilancia_y_control_e_indicadores.pdf pag. 22 (fecha del documento 26/02/2021)


Fig. 9a Contagio origen Desconocido en Aragón 03/05/2021

Fig. 9b Contagio origen Desconocido en Aragón 03/05/2021. Porcentaje del efecto día sobre la tendencia

3.10 Figura 10. Casos de COVID en Aragón en número y en porcentaje sobre la Tendencia (semana 21/06/2021).

Se ha añadido el último dato disponible, en la fecha de la publicación, sobre los Casos de COVID en Aragón


 

Fig. 10a Casos COVID Aragón 21/06/2021
Fig. 10b Casos COVID Aragón. Porcentaje del efecto día semana sobre la tendencia 21/06/2021


4. Columnas en el modelo de datos

Además de las columnas indicadas en el apartado 2. Cálculo de los componentes del modelo el modelo de datos contiene las siguiente columnas:

A (columna 1): Fecha en formato dd/mm/aaaa

B (columna 2): Día de la semana (L, M, X, J, V, S, D)

C (columna 3): Número de casos sobre los que se hace el cálculo (nuevos contagios, número de test, positividad, asintomáticos, etc.)

D (columna 4): El componente Tendencia (ver 2.a)

E (columna 5): El número de casos de un día entre la tendencia (ver 2.b b.1)

F (columna 6): Media aritmética de dias homónimos en las cuatro semanas anteriores (ver 2.b b.2)

G (columna 7): Factor corrector de medias (ver 2.b b.3)

H (columna 8): Efecto dia con la media corregida (ver 2.b b.3)

I (columna 9): Componente aleatoria (ver 2.c)


J (columna 10): Efecto día de la semana (ver 2.b b.4)


K, L, M, N (columnas 11,12 13,14) vacias

O (columna 15): Varianza de 7 elementos previos de la columna C (el actual y los 6 días inmediatamente previos). Por ejemplo, VAR.P(C309:C315)

P (columna 16): Varianza de 7 elementos previos de la columna I (el componente Aleatorio del número de casos indicado en 2.c). Por ejemplo VAR.P(I309:I315)

Q (columna 17): Porcentaje de la varianza del número de casos que queda recogida en el componente aleatorio. Columna P / Columna O (x 100). Cuando el Porcentaje de varianza es 0 significaría que el modelo prevé el número de casos a partir de la tendencia. Eso no ocurre nunca, pero en épocas de mayor estabilidad en la Tendencia este porcentaje se reduce.

Los datos “en bruto” empleados figuran en el fichero Datos empleados


5. Refinamientos probados con el modelo

a) Se ha probado sustituir las medias aritméticas por medias geométricas (columna 6) sin haber lo grado efecto positivo en la reducción de la varianza (columna 17).

b) Se ha probado ponderar las medias de los dias homónimos de semanas anteriores (columna 6 las más recientes ponderan más). No se ha comprobado ningún efecto en la reducción de la varianza.

 

6. El lenguaje coloquial a la luz del modelo de series temporales.

a) Según este modelo, la Tendencia marca la evolución de los indicadores. Como la Tendencia la hemos construido como la media móvil de los 7 últimos dias (la conocida IA7) frases como “este martes se han notificado 10 casos más/menos que el martes pasado” representan acertadamente ese aumento/disminución de la tendencia.

b) “El miércoles suele ser el peor día de la semana”. Efectivamente. En Aragón, los casos publicados el miércoles (que corresponden a los habidos el martes) suelen presentar una mayor efecto positivo. Por lo que hemos visto, seguramente no ocurre lo mismo en otros lugares. Parece que a final de junio 2021 el peor día de la semana pudiera ser el jueves.

c) “Lo sistematico es que domingo y lunes sean los dias de menor notificacion registrada en la estadistica” Efectivamente. Habría que añadir que también los datos publicados los martes (casos habidos el lunes) presentan en Aragón un efecto negativo al igual que los publicados el domingo y el lunes.

d) Los siguientes titulares de un medio de comunicación. Dan a entender, aunque no lo dicen explícitamente, un empeoramiento: “Aragón registra 133 contagios este lunes, 82 más que el domingo”, “Aragón notifica 126 nuevos contagios de coronavirus, 56 más que este lunes” Aunque en este titular se hace una descripción más acorde con la realidad: “Aragón notifica 79 nuevos casos de covid, 58 más que ayer pero 54 menos que hace una semana

No es aconsejable sacar conclusiones sobre el “efecto del dia de la semana” de examinar solamente una semana. Los ejemplos gráficos señalados en 3.b, excepto seguramente los “casos de Aragón”, tienen el objetivo de ver como se aplica el modelo de datos a otros indicadores de características diversas y proponer indicios y no el de poder sacar conclusiones de ellos.

Hay que señalar que a lo largo de las semanas el “efecto del dia de la semana”, reflejado en los histogramas de color verde, ha ido cambiando. Por ejemplo, el número de casos en Aragón se ha modificado entre marzo-abril-mayo y la penúltima semana de junio.


7. Cómo se puede utilizar el modelo de datos a series de datos asociadas a las fechas.

Si se cuenta con una serie de datos asociados a dias, de modo que no falte el dato de ningún dia, se puede sustituir la columna C del modelo de datos por la citada serie de datos, cuidando de que las fechas se correspondan a las de la columna A.

Para poder obtener los componentes de la serie temporal de determinado día es necesario contar con datos del dia actual y de 34 dias anteriores, es decir, contar datos de los últimos 35 dias. Esto es consecuencia del promedio calculado en la columna F.

En la parte inferior del fichero de modelo de datos se pueden encontrar los histogramas de datos asociados a una semana.

 

8. Agradecimientos

A Carmen G. y Sonia G. (@CarmenTwin72 @SoniaTwin72 en Twitter) quienes durante toda la pandemia han publicado todos los dias (casi siempre por la mañana y por la tarde) el número de casos COVID en Aragón. Sus comentarios y su foco puesto en asuntos locales han dado una valiosa perspectiva y colmado el ansia de noticias.

A Ignacio de Blas (@BlasIgnacio, http://winepi.net/covid19.htm), profesor e investigador de Epidemiología en la Facultad de Veterinaria de la Universidad de Zaragoza. Estupendo divulgador, ha explicado las relaciones entre los diversos indicadores y ha señalado como se interrelacionan entre ellos y con los indicadores de contagios, hospitalizados, UCI y fallecidos introduciéndo a sus lectores en algunos conceptos epidemiológicos.

A Transparencia del Gobierno de Aragon (https://www.aragon.es/organismos/departamento-de-ciudadania-y-derechos-sociales/direccion-general-de-gobierno-abierto-e-innovacion-social/servicio-de-transparencia, http://servicios.aragon.es/organigrama_publico/PublicoServlet?accion=4&id_entidad=3078) dirigido por Ana Isabel Beltrán (@Anabelbeltrg). Han publicado, salvo unos pocos días señalados los datos de COVID https://transparencia.aragon.es/COVID19 haciendo un esfuerzo personal más allá de sus estrictas obligaciones.

Al grupo de voluntarios #escovid19data que han recogido datos y los han hecho disponibles https://github.com/montera34/escovid19data de todas las CCAA

Al servicio Open Data del Gobierno Vasco https://opendata.euskadi.eus/catalogo/-/evolucion-del-coronavirus-covid-19-en-euskadi/ y a sus boletines diarios como https://www.euskadi.eus/contenidos/informacion/boletin_coronavirus/es_def/adjuntos/2021/27_abril_2021_Boletin.pdf


Los anteriores son unos pocos de la mucha gente que ha seguido diariamente la marcha de la pandemia y ha ofrecido sus datos y reflexiones.


Referencias:

[1] León, Manuel de; Gómez Corral Antonio. Series temporales. 1 junio 2020. Artículo en Blog. http://www.madrimasd.org/blogs/matematicas/2020/06/01/148025

[2] Marín Diazaraque, Juan Miguel. Series Temporales. Apuntes para estudios de la Universidad Carlos III. Madrid. 15 pags< http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/EDescrip/tema7.pdf

[3] Peña Sánchez de Rivera, Daniel. Análisis de series temporales. Madrid 2018. Alianza. 2.ª ed., 2ª reimp.

[4] Universidad Complutense. Madrid. Modelización con datos de series temporales. 2013. Apuntes. 41 pags. https://www.ucm.es/data/cont/docs/518-2013-10-25-Tema_6_EctrGrado.pdf


Fuentes de datos:

[A] Portal de transparencia del Gobierno de Aragón. COVID-19. Situación actual. https://transparencia.aragon.es/COVID19

[B] Mapa de casos de COVID-19 en Aragón. https://datacovid.salud.aragon.es/covid/

[C] Gobierno Vasco. Transparencia sobre el nuevo coronavirus (COVID-19)

Departamento de Salud. https://www.euskadi.eus/boletin-de-datos-sobre-la-evolucion-del-coronavirus/web01-a2korona/es/ > Información sobre la evolución del coronavirus en Euskadi: dd/mm/aaaa (por ejemplo: https://www.euskadi.eus/contenidos/informacion/boletin_coronavirus/es_def/adjuntos/2021/27_abril_2021_Boletin.pdf). También https://opendata.euskadi.eus/catalogo/-/evolucion-del-coronavirus-covid-19-en-euskadi/

[D] Escovid19data: Capturando colaborativamente datos de COVID-19 por provincias en España. https://github.com/montera34/escovid19data

 

Hoja de cálculo con el Modelo de datos (descargar)

Hojas con Datos básicos utilizados (descargar)


 

 

Comentarios

Entradas populares de este blog

Pacientes ingresados CON Covid y pacientes ingresados POR Covid

Comparecencia de la Secretaria de Estado de Digitalización e Inteligencia Artificial en la Comisión de Asuntos Económicos y Transformación Digital del Congreso de los Diputados