ValoraciÃ³n de suelos con Â«text-miningÂ» empresaglobal.es

ValoraciÃ³n de suelos con Â«text-miningÂ»

Septiembre de 2018

Pedro J. RodrÃguez

La falta de herramientas de valoraciÃ³n inmobiliaria del suelo y la mejora en las tÃ©cnicas existentes de procesado del lenguaje natural son las bases de este proyecto, cuyo objetivo es predecir el valor de mercado de los suelos a partir de las caracterÃsticas encontradas en el campo de descripciÃ³n de texto libre en anuncios de portales inmobiliarios.

En los portales o webs inmobiliarios, es frecuente la existencia de un campo de texto libre en el que el anunciante tiene la posibilidad de detallar mejor las caracterÃsticas del inmueble que quiere vender, de forma adicional a lo que permite el resto de campos estructurados del portal. Por otro lado, las herramientas y modelos actuales de valoraciÃ³n existentes en el mercado estÃ¡n muy focalizados en la tipologÃa residencial, siendo poco habituales las aplicables a valoraciÃ³n de suelos.

Por todo ello, decidimos iniciar un proyecto que harÃ¡ uso de la informaciÃ³n contenida en los campos de descripciÃ³n de texto libre de los anuncios de suelos (urbanos y urbanizables), asÃ como de informaciÃ³n externa relevante, para predecir el valor de mercado de dichos activos.

El primer paso antes de organizar las diferentes tareas es obtener un entendimiento suficiente del negocio inmobiliario que permita definir y elegir la informaciÃ³n mÃ¡s adecuada y relevante para el desarrollo de los modelos. Para ello, tras contactar con varios expertos en valoraciÃ³n inmobiliaria, confirmamos la referencia en la que se sustentan las tasaciones de suelos urbanos y urbanizables realizadas por las entidades tasadoras en el mercado inmobiliario actual, el mÃ©todo residual de valoraciÃ³n del suelo, definido en la Orden ECO/805/2003, de 27 de marzo, sobre normas de valoraciÃ³n de bienes inmuebles.

De manera resumida, este mÃ©todo considera el valor del suelo como el Â«residuoÂ» que se produce al deducir al valor de venta del producto terminado, todos los costes asociados: gastos de la promociÃ³n, costes de construcciÃ³n y beneficios del promotor. Mediante este mÃ©todo se obtiene el valor de repercusiÃ³n del suelo, medido como precio de venta entre superficie edificable (m² construidos del producto terminado).

AdemÃ¡s del mÃ©todo utilizado para valorar, se necesita contar con una informaciÃ³n mÃnima para poder realizar la valoraciÃ³n de un suelo: la superficie total del terreno, la localizaciÃ³n (municipio y provincia en el que se encuentra el suelo, distancia al centro urbano, etc.), la clasificaciÃ³n o tipologÃa del suelo (suelo urbano, urbanizable y no urbanizable o rÃºstico), la calificaciÃ³n o usos permitidos del suelo (residencial, terciario, industrial, dotacional, etc.) y la edificabilidad o superficie mÃ¡xima edificable.

La metodologÃa seguida para afrontar el problema propuesto ha sido la metodologÃa CRISP-DM (Cross-industry standard process for data mining), que define el marco de trabajo a seguir para el correcto desarrollo de un proyecto de Data Science.

Una vez conocemos mejor el negocio, organizamos las tareas del proyecto, y definimos la metodologÃa a aplicar, se divide el problema en cuatro fases:

Fase 1: ObtenciÃ³n de datos

Se procede a la descarga de un mÃnimo nÃºmero de anuncios con datos suficientes, utilizando tÃ©cnicas de web scrapping. Se extraen datos tanto estructurados (en forma de Â«clave-valorÂ») como no estructurados (descripciÃ³n de texto libre), y se almacenan en una base de datos NoSQL -en nuestro caso MongoDB. Analizamos y tratamos estos datos mediante tÃ©cnicas de NLP (procesamiento de lenguaje natural) y expresiones regulares.

Fase 2: Desarrollo del modelo de Â«text-miningÂ»

El objetivo de esta fase es obtener el valor de las caracterÃsticas de los suelos dentro del campo de texto libre, mediante el desarrollo de un modelo de extracciÃ³n de informaciÃ³n o modelo de reconocimiento de entidades (NER, Named Entity Recognition). Se decide utilizar modelos de Deep Learning, utilizando una muestra de datos de entrenamiento etiquetados a mano. El mejor modelo resultante es una RNN (red neuronal recurrente) con tres capas LSTM (Long Short-Term Memory) establecidas secuencialmente, aÃ±adiendo un 30% de dropout no recurrente. Este modelo mejora en un 28% el rendimiento (mÃ©trica F-Score) del modelo benchmark propuesto, definido como aquÃ©l que clasifica todas las palabras del texto como Â«sin significadoÂ», como queda confirmado en la evoluciÃ³n del accuracy de cada modelo segÃºn aumenta el nÃºmero de Ã©pocas entrenadas.

Se desarrollan, ademÃ¡s, un modelo de extracciÃ³n de la tipologÃa de suelo cuyo objetivo es la extracciÃ³n de la tipologÃa del suelo para la selecciÃ³n de la muestra de registros a etiquetar para el modelo NER, y un modelo de extracciÃ³n de la localizaciÃ³n para la obtenciÃ³n de la provincia y municipio a partir de la localizaciÃ³n escrita en texto. Ambos modelos utilizan, fundamentalmente, expresiones regulares.

Fase 3: Desarrollo del modelo de precios

El objetivo, en esta fase del proyecto, es estimar el precio final del inmueble anunciado. Utilizamos los datos extraÃdos del campo de descripciÃ³n de texto libre (predicciones del modelo de reconocimiento de entidades de text-mining) y datos incorporados de fuentes externas como el INE (Instituto Nacional de EstadÃstica), IGN (Instituto GeogrÃ¡fico Nacional), Fomento, Idealista y CYPE (costes de construcciÃ³n), entre otros, sin utilizar ningÃºn dato adicional disponible en los anuncios.

Se entrenan diversos modelos de regresiÃ³n incluidos en la librerÃa scikit-learn de Python, desde los mÃ¡s sencillos, como regresiones lineales o Ã¡rboles de decisiÃ³n, hasta modelos de ensemble mÃ¡s complejos, como Gradient Boosting y Random Forest.

El mejor modelo de regresiÃ³n obtenido en esta fase es un Random Forest (ensemble de Ã¡rboles de decisiÃ³n), cuyo rendimiento, medido en tÃ©rminos de R2 ajustado, resulta en una mejora de un 121% con respecto al modelo benchmark definido, el cual utiliza Ãºnicamente los datos estructurados de los anuncios.

Se aprecia que las variables con mÃ¡s relevancia en el modelo final tienen sentido de negocio, como la edificabilidad, la superficie total o la distancia al nÃºcleo urbano.

Adicionalmente, se desarrolla un modelo sencillo de valoraciÃ³n estadÃstica (AVM), que implementa el mÃ©todo residual estÃ¡tico (artÃculos 40 a 42 de la Orden ECO/805/2003) de valoraciÃ³n inmobiliaria. Toma como datos de entrada el tipo de suelo y la lista de usos permitidos, y devuelve el valor de la repercusiÃ³n del suelo. Este valor se aÃ±ade tambiÃ©n como input al modelo de regresiÃ³n de predicciÃ³n del precio.

Fase 4: IntegraciÃ³n final

En la Ãºltima fase, integramos todos los pasos y resultados intermedios para generar un proceso Ãºnico e integrado, mediante el cual, a partir del texto con las caracterÃsticas de un suelo, se pueda estimar su valor de mercado. De esta manera, facilitamos su uso en posibles aplicaciones futuras. Finalmente, como muestra de aplicaciÃ³n prÃ¡ctica del proyecto, se desarrolla una aplicaciÃ³n web sencilla que utiliza, de manera integrada, todos los modelos descritos.

En esta aplicaciÃ³n, el usuario Ãºnicamente tiene que introducir la descripciÃ³n y la localizaciÃ³n del suelo a valorar en lenguaje natural, y mediante un Ãºnico click obtendrÃ¡ el valor de mercado de dicho suelo estimado por el modelo.

Nota: este artÃculo es un extracto del trabajo de fin de curso del MÃ¡ster Executive en Data Science y Big Data en Finanzas 2017-2018, Afi Escuela de Finanzas.

Pedro J. RodrÃguez es analista de Modelos de Riesgo en Sareb.

Compartir-Descargar

Febrero de 2022

JosÃ© Manuel RodrÃguez Madrid

Inteligencia Artificial: Hacia la singularidad

2623 visualizaciones

Junio de 2022

Los cambios demogrÃ¡ficos y la empresa

1705 visualizaciones

Septiembre de 2024

Jorge Fabra | Santiago FernÃ¡ndez

El mecanismo de recuperaciÃ³n y resiliencia, un instrumento transformador que debe continuar

1680 visualizaciones

Octubre de 2024

Ãngel MartÃnez Jorge | Cristina GarcÃa Ciria | MarÃa Romero Paniagua | Marina GarcÃa Gil

La reproducciÃ³n de la especie

1409 visualizaciones

Septiembre de 2024

Instrumentos financieros: un laboratorio de ideas para impulsar polÃticas pÃºblicas

1400 visualizaciones

MÃ¡ster Executive en Ciencia de Datos e Inteligencia Artificial