Â«Nowcasting our economyÂ» empresaglobal.es

Â«Nowcasting our economyÂ»

Mayo de 2017

Ãlvaro JimÃ©nez Bernal | Daniel Girela SarriÃ³n

Â¿Es posible predecir el estado actual de nuestra economÃa a partir de datos de transacciones de pago en terminales punto de venta de comercios?

Nowcasting our economy es una iniciativa que trata de validar la conexiÃ³n entre indicadores macroeconÃ³micos oficiales y una muestra parcial de la actividad econÃ³mica real del paÃs, representada con informaciÃ³n de medios de pago electrÃ³nico de BBVA. Esta informaciÃ³n estÃ¡ constituida por transacciones de pago de tarjetas de BBVA en terminales de punto de venta operados por cualquier entidad, y por otro lado, por transacciones de pago de tarjetas de cualquier entidad en terminales de punto de venta de BBVA entre los aÃ±os 2013 y 2015.

Para tal fin, se ha dispuesto de mÃ¡s de 2.000 millones de transacciones de pago en terminales de punto de venta, para las que se registran las siguientes variables:

Identificador de cliente y tarjeta.
InformaciÃ³n relativa al cliente: cÃ³digo postal y municipio de residencia; gÃ©nero y edad.
InformaciÃ³n relativa al comercio: ramo; categorÃa y subcategorÃa BBVA (grupos de gasto como Â«transporteÂ», Â«alimentaciÃ³nÂ», Â«ropaÂ», etc.); cÃ³digo postal, municipio y coordenadas.
InformaciÃ³n propia de la transacciÃ³n: tipo de transacciÃ³n, canal de compra e importe.

La fuente de inspiraciÃ³n principal es el trabajo Predicting Regional Economic Indices Using Big Data of Individual Bank Card Transactions (Sobolevsky et al., 2015, disponible aquÃ), donde emplean un dataset similar (conteniendo Ãºnicamente transacciones de tarjeta del aÃ±o 2011) para ajustar modelos que expliquen la variabilidad espacial de algunos indicadores econÃ³micos de nuestro paÃs tales como el PIB, la tasa de paro o la esperanza de vida. En nuestro trabajo, los indicadores que modelizamos han sido los siguientes:

DemografÃa empresarial: nÃºmero de unidades locales (por provincia y aÃ±o; aÃ±os 2013 a 2015).
PIB per cÃ¡pita (por provincia; aÃ±o 2013).
ContribuciÃ³n al PIB per cÃ¡pita (por provincia; aÃ±o 2013) de los sectores CNAE del K al N que engloban actividades financieras, de seguros, inmobiliarias, cientÃficas, tÃ©cnicas y administrativas. Se probaron otros sectores CNAE, pero son estos en los que se consigue un mejor ajuste.
Renta media anual por hogar (por comunidad autÃ³noma y aÃ±o; aÃ±os 2013 a 2015).
Tasa de paro (por provincia y trimestre; aÃ±os 2013 a 2015).

El motivo fundamental por el que tiene interÃ©s construir modelos para este tipo de indicadores empleando como fuente el dataset proporcionado por BBVA estÃ¡ en que los propios indicadores se publican con cierto retardo y a un nivel de desagregaciÃ³n temporal y espacial poco detallado. Disponer de estos modelos podrÃa servir para predecir en tiempo real (nowcasting) esos indicadores econÃ³micos. AdemÃ¡s, podrÃan emplearse, tomando como inputs las mismas variables calculadas a niveles de desagregaciÃ³n adecuados, para aproximar cuestiones como por ejemplo Â«el PIB de un barrioÂ», ya que al ser modelos lineales, Â«desagregaciones a la entrada se convierten en desagregaciones a la salidaÂ».

Las variables que se han considerado en la construcciÃ³n de los modelos se clasifican en los siguientes grupos:

Gasto en periodos: 30 variables que representan gasto agregado por franjas horarias (maÃ±ana, mediodÃa, tarde, noche, madrugada), Ã©pocas del aÃ±o (navidad, verano, rebajas), fines de semana.
Variabilidad de la oferta: 22 variables que representan el nÃºmero de negocios activos por subcategorÃa BBVA en la zona.
Gasto categorizado: 19 variables que representan importes gastados por subcategorÃa BBVA en la zona, asÃ como gastos en comercios lujosos, esto es, en establecimientos donde la transacciÃ³n media es mÃ¡s alta que la transacciÃ³n media en su subcategorÃa BBVA en la zona.
Gasto por rango de edad: 18 variables que representan volumen y gasto agregado por rango de edad en la zona.
Movilidad: diez variables que tratan de reflejar patrones de movimiento de los clientes en la zona.
Densidad de operaciones: tres variables que reflejan volumen, importe total e importe medio de transacciones realizadas en la zona.
Variabilidad de demanda: dos variables que representan el nÃºmero de subcategorÃas BBVA en las que se concentra el 80% del gasto total realizado en la zona, o del gasto total realizado por residentes en la zona.

Un ejemplo de los modelos obtenidos es el que aparece en la siguiente figura, donde para cada provincia estÃ¡ representada nuestra estimaciÃ³n en funciÃ³n del valor real.

Una vez construidos los modelos, en los que, naturalmente, no intervienen todas las variables citadas anteriormente sino aquellas que funcionan bien para evitar sobreajustar, observamos que, con nuestro mÃ©todo de muestreo, estos consiguen reflejar la variabilidad espacial de los indicadores en cuestiÃ³n (llegando a conseguir coeficientes de determinaciÃ³n de en torno al 80% para el PIB per cÃ¡pita, por ejemplo) con mayor Ã©xito que la correlaciÃ³n con las fluctuaciones de los cÃ¡lculos trimestrales o anuales de dichos indicadores. Esto sugiere que una posible lÃnea de mejora serÃa combinar el uso de estas tÃ©cnicas con modelos economÃ©tricos de mayor complejidad e, incluso, alguna fuente de informaciÃ³n de naturaleza macro. AdemÃ¡s de esto, cabe reseÃ±ar que algunas de las variables que aparecen, de manera recurrente, en los modelos de los distintos indicadores, son:

Volumen de transacciones realizadas por residentes en la provincia entre las 18:00 y las 22:00 horas.
Volumen de oferta relativa a servicios de transporte en el Ã¡rea.
Volumen de gasto en alimentaciÃ³n sobre gasto total realizado en el Ã¡rea.
Volumen de transacciones realizadas por extranjeros en el Ã¡rea.
Densidad de negocios activos en el Ã¡rea.
NÃºmero de viajes interprovinciales realizados por residentes en el Ã¡rea.

Para finalizar, podemos ver a continuaciÃ³n un mapa de calor del error de las estimaciones obtenidas con el modelo del PIB per cÃ¡pita de la primera figura.

Nota tÃ©cnica del proyecto: Se ha utilizado un cluster Hadoop gestionado con Cloudera Manager. Todos los datos han sido almacenados en formato Parquet en una base datos administrada con Hive e Impala. Tras realizar las agrupaciones y cÃ¡lculos necesarios, los posteriores anÃ¡lisis, modelizaciones y representaciones grÃ¡ficas de resultados se han llevado a cabo en lenguaje R, usando como entorno de desarrollo RStudio.

Equipo de Afi que ha participado en el proyecto: Miguel Ãngel Corella, Borja Foncillas, Daniel Girela, Ãlvaro JimÃ©nez, Elena Montesinos, Esteban Moro, JosÃ© Manuel RodrÃguez, MarÃa Romero y Diego VizcaÃno.

Daniel Girela es consultor en el Ã¡rea de Desarrollo TecnolÃ³gico de Afi
Ãlvaro JimÃ©nez es consultor en el Ã¡rea de Desarrollo TecnolÃ³gico de Afi

Compartir-Descargar

Marzo de 2025

Yasmeen Chong

EmpatÃa digital: el superpoder del liderazgo femenino en la era de la IA

2369 visualizaciones

Febrero de 2025

David Cano

Seres emocionales y no tan racionales

1804 visualizaciones

Junio de 2022

Los cambios demogrÃ¡ficos y la empresa

1531 visualizaciones

Febrero de 2012

Esther RodrÃguez FernÃ¡ndez

El proceso de negociaciÃ³n internacional

1255 visualizaciones

Marzo de 2025

Carmen LÃ³pez

1190 visualizaciones