Competir para promover el «Big Data»
Junio de 2019 Pablo Manuel Garabal Vaquero, Emilia Musat y Maria Ruiz MartÃn han resultado finalistas del Datathon Cajamar UniversityHack 2019, el concurso que organiza Cajamar para jóvenes estudiantes de «Data Science».Esta iniciativa promovida por Cajamar busca potenciar el desarrollo y la generación de ideas en el ámbito del Big Data, a través del tratamiento de la información y la generación de propuestas de valor para la sociedad, instituciones o empresas. El proceso tiene dos fases diferenciadas, la primera a nivel local y la segunda en el plano nacional. Los premios son dotaciones económicas cuyas cuantÃas oscilan entre los 7.500 y los 600 euros, dependiendo del puesto obtenido.
Los tres son alumnos del Máster en Data Science y Big Data 2018 de Afi Escuela de Finanzas y nos cuentan su experiencia.
P. ¿En qué consiste Datathon?
R. El Datathon es una competición lanzada cada año por Cajamar. Los estudiantes de diferentes universidades y escuelas compiten durante aproximadamente dos meses para superar dos retos o problemas del ámbito de la ciencia de datos. Generalmente, uno de ellos es de visualización y sistemas de recomendación mientras que el otro trata de desarrollar un modelo predictivo. Para ambos retos se proporcionan datos reales, tanto de Cajamar como de los partners que patrocinan el evento.
P. ¿Cómo y por qué decidisteis participar?
R. En Afi Escuela, los profesores nos hablaron de ella y nos animaron a participar. Aunque suponÃa un esfuerzo extra y la necesidad de dedicarle mucho tiempo, valoramos más la oportunidad de enfrentarnos solos (sin guÃa ni ayuda de los profesores) a un problema con datos reales donde podrÃamos poner en practica los conocimientos adquiridos durante el máster.
P. ¿Cuál ha sido vuestro proyecto?
R. Nosotros participamos en el reto «Minsait Real Estate Modelling». En él se proporcionaba datos de inmuebles de la página web «Haya», portal en el que podemos encontrar diferentes tipos de inmuebles para alquiler o compra. Entre esta información se encontraban datos propios de los inmuebles (localización, tamaño, precio, antigüedad, etc.) asà como datos propios de analÃticas de la página web, como el número de visitas al anuncio o porcentaje de personas que interactuó con él. Con esta información se nos pedÃa desarrollar un modelo que estimase el tiempo medio que los usuarios van a pasar viendo cada uno de los anuncios.
De lo aprendido con este reto destacarÃamos tanto la creatividad e importancia de mantener una mente abierta a las ideas de los compañeros, como lo vital que es la fase de exploración de los datos, pre-procesado y feature engineering.
P. ¿Qué creéis que os ha llevado a ser finalistas?
R. El análisis exploratorio de los datos en este problema era clave. Creemos que los esfuerzos y la creatividad puesta en este punto fue lo que nos llevó a ser finalistas. Desconocemos si el resto de los equipos, que quedaron fuera de la final, llegaron a la misma conclusión que nosotros, pero sin duda acotar las predicciones de la variable objetivo era la clave para unos buenos resultados. La aplicación de diferentes técnicas para extraer la mayor información posible de los datos y diseñar soluciones que se ajustasen a nuestro reto, como la implementación de varios modelos mediante un ensemble, también nos llevó a obtener mejores predicciones.
P. ¿Qué os ha aportado la experiencia personal y profesionalmente?
R. La competición nos ha aportado la experiencia de habernos enfrentado a un problema real sin asistencia de nuestros profesores o gente con experiencia previa en el tema a tratar. Además, nos ha permitido hacernos una idea de cuán preparados estamos para este tipo de proyectos y cómo es nuestro nivel en comparación con otros estudiantes de data science de toda España.
Nos ha hecho valorar más el hecho de trabajar con un equipo multidisciplinar y la importancia de medir el tiempo a emplear en cada tarea cuando se trabaja en un proyecto con fechas de entrega definidas y poco tiempo para acometerlas.
Por último, el hecho de haber llegado a la final nos ha dado más visibilidad a nivel profesional. No solo es algo que añadir al CV, sino que la difusión que Cajamar da del concurso y de los finalistas nos ayuda también a que empresas puedan verse interesados en nosotros.
P. ¿Qué consejos le darÃais a estudiantes que quieran participar?
R. ¡No participéis chicos!
Si seguÃs aquà es que habéis superado la primera prueba, de la que deriva nuestro primer consejo: hay que tener muy claro que se quiere participar. El proyecto no es algo que se acabe en un punto concreto, sino que se puede alargar tanto como el equipo desee investigando nuevas estrategias tanto en el modelado como en el preprocesador y generación de variables. Nosotros durante el concurso estábamos trabajando por las mañanas, con clases por las tardes y entregas periódicas para las distintas asignaturas del máster. Llegar a la final nos costó horas de sueño, comidas o cenas frente al ordenador y trayectos de casa al máster o al trabajo pensando en nuevos acercamientos que mejoraran el resultado.
Esto nos lleva a nuestro segundo consejo: antes de apuntarse el equipo debe tener claro y estar de acuerdo en cuál es la disponibilidad horaria y las prioridades de los miembros, para que no haya desencantos con la dedicación de cada uno. En nuestro caso lo hablamos antes de apuntarnos y fue lo que hizo que nos decidiéramos a participar, que cada uno contribuirÃa hasta donde pudiera, pero siempre priorizando el máster y el trabajo.
En tercer lugar, creemos que es muy importante gestionar bien el tiempo. Un buen diseño a priori puede ayudar a no perder el tiempo con enfoques que no darán resultados y a optimizar el tiempo empleado.
Por último, dado que algún momento puede ser estresante, no hay que olvidar que se trata de una competición, en la que tienes la oportunidad de trabajar con un equipo que tú has elegido. Una de nuestras claves para disfrutarlo, más allá de lo lejos que llegáramos, fue trabajar juntos, apoyarnos unos a otros y divertirnos con ello.