Uso de cookies

Este sitio web solo utiliza cookies técnicas propias obligatorias con la finalidad de hacer que su navegación sea segura.
Asimismo, utiliza cookies de terceros opcionales para hacer análisis estadístico de las visitas a la web y conocer su usabilidad.
Si desea más información o cambiar la configuración de su navegador, puede visitar nuestra Política de Cookies.
Pulse el botón "Rechazar cookies opcionales" o "Aceptar todas las cookies" para confirmar que ha leído y aceptado la información aquí presentada.

LLM: el futuro de los asistentes virtuales

Junio de 2023
Estamos viendo cómo la evolución de la tecnología crece de modo exponencial. Lo que antes era ciencia ficción, hoy se convierte en una realidad al alcance de muchos. En noviembre de 2022 se lanzó ChatGPT, el chatbot gratuito de OpenAI que ha conquistado Internet. ChatGPT utiliza una Inteligencia Artificial basada en los modelos de procesamiento del lenguaje, más concretamente LLM (Large Language Model). La cuarta revolución industrial se extiende, se integra y se dirige a nuestras capacidades cognitivas.

Puede parecer reciente y novedoso, pero para hablar de LLM debemos remontarnos a 1964 con la creación del primer chatbot, Eliza, aunque ya desde la década de los 50 ya se empezaron a diseñar algunos asistentes virtuales. Joseph Weizenbaum, creador de la idea de Eliza, quería simular una conversación entre un psicólogo y su paciente. Este chatbot tenía la finalidad de hacer sentir al usuario escuchado y comprendido.

En 1997, se introdujeron las redes de memoria a corto plazo o LSTM (Long Short -Term Memory), las cuales manejan mayor cantidad de datos. En 2010 se lanza CoreNLP, que proporciona herramientas y algoritmos para tratar temas más complejos del procesado del lenguaje natural como el análisis de sentimiento. Un año después se crea Google Brain, un equipo de investigación de Google dedicado únicamente a la investigación de la inteligencia artificial. En 2017, Google Brain introdujo los modelos Transformer, utilizados para el modelado del lenguaje, conocidos por su capacidad para capturar relaciones a largo plazo en el texto. Esto es la base para la creación de las aplicaciones más potentes de la IA. Esta nueva arquitectura de Transformer, basada en redes neuronales recurrentes, da lugar a los LLM como GPT-3 (Generative Pre-Trained Transformer) de OpenAI.

Hablar de LLM hace referencia a un tipo de inteligencia artificial capaz de comprender el lenguaje natural. Son modelos de Deep Learning que han sido entrenados con miles de millones de parámetros y con gran cantidad de datos recogidos de Internet.

Estos modelos surgidos en 2018 procesan y analizan la información a través de redes neuronales para comprender lenguaje y responder preguntas sobre el texto aprendido. Si bien es cierto que fueron entrenados para tareas más sencillas como predecir la siguiente palabra de una frase incompleta, se ha observado que funcionan para una gran variedad de tareas. Esto se debe a que capturan la semántica y sintaxis de nuestro lenguaje y memorizan a su vez datos de la fase de entrenamiento.

Entre los usos más comunes destacan el análisis de sentimientos, la traducción, el resumen o la generación de texto, entre otras, aunque su uso se ha disparado por el desarrollo de asistentes de IA (chatbots), especialmente GPT.

El funcionamiento de un LLM se basa en el aprendizaje automático y procesamiento estadístico del lenguaje. Es durante la fase de entrenamiento donde se crea la red neuronal con los parámetros y se alimenta a esta red con enormes cantidades de datos que proceden de fuentes como Wikipedia o GitHub, textos de libros, artículos, sitios web y otro tipo de recursos escritos. Los conjuntos de entrenamiento llegan a tener hasta 10 billones de palabras recogidas de textos. En esta fase, el modelo trata de aprender reglas, patrones y estructuras del lenguaje a partir de los datos que se han proporcionado.

Una vez se ha entrenado el modelo, puede realizar dos tareas principales: predicción y generación de texto. Cuando le presentamos a un LLM una secuencia de palabras, intenta predecir la siguiente secuencia en función del contexto proporcionado. Por ejemplo, si le damos la frase "Hoy hace buen tiempo, voy a dar un paseo por el...", el modelo puede predecir que la siguiente palabra será "parque" o "vecindario" en base al contexto; esta es la tarea principal de predicción. Por otro lado, si le damos una frase como "Una vez en un lugar lejano...", el modelo puede continuar la historia generando una secuencia de palabras coherentes y relevantes; esta sería la tarea de generación de texto.

El entrenamiento requiere convertir el texto en una representación numérica que sea capaz de interpretar el modelo, además de los parámetros y una función de pérdida para medir los resultados. El objetivo del modelo será optimizar los parámetros para minimizar la pérdida, repitiendo el proceso hasta que el nivel de precisión sea aceptable. El modelo, como se ha mencionado, es una red neuronal que se inspira en el funcionamiento humano. Se puede entender el modelo como una conexión de neuronas en las que cada una de ellas realiza una operación matemática y, a través de estas redes, el LLM toma decisiones sobre frases o palabras en función de la probabilidad en un contexto determinado.

Estos modelos los podemos clasificar dentro de Inteligencia Artificial General, que son los que tienen la capacidad de usar la razón, representar conocimiento, comunicarse, aprender, etc. Pero cabe destacar que los LLM no comprenden el texto ni tienen un conocimiento real del mundo: no entienden el significado de las palabras ni poseen conciencia como un ser humano. Asimismo, no son capaces de sentir ni empatizar; simplemente aplican patrones estadísticos y reglas aprendidas para generar un texto coherente prediciendo la siguiente palabra.

Vivimos en un mundo de constantes cambios, más si cabe en el mundo de la tecnología. Según las estadísticas, Mientras que los primeros asistentes se limitaban a responder preguntas con respuestas predefinidas, hemos experimentado como en los últimos meses estas conversaciones son más elaboradas y naturales gracias al uso de los modelos LLM. De modo que, aunque es hoy habitual preguntarse cómo será nuestro futuro con la Inteligencia Artificial, ya forma parte de nuestro día a día.

1 BBC News Mundo (3 de junio de 2018). La sorprendente y poco conocida historia de Eliza, el primer bot conversacional de la historia. https://www.bbc.com/mundo/noticias-44290222
2 Las cosas de internet (10 de diciembre de 2022). ¿Qué es un modelo de lenguaje LLM en IA? https://lascosasdeinternet.com/tech-development/que-son-los-modelos-de-lenguaje-llm-en-ia/
3 LinkedIn (29 de abril de 2023). Large Language Model (LLM), prompt engineering y la optimización del uso de chatgpt3 - primera parte. https://es.linkedin.com/pulse/large-language-model-llm-prompt-engineering-y-la-del-gonz%C3%A1lez-disla
4 Manu Duque (1 de marzo de 2023). Grandes Modelos de Lenguaje (LLM) alternativos a GPT-3. https://www.manuduque.com/grandes-modelos-de-lenguaje-llm-alternativos-a-gpt-3/
5 ScribbleData (11 de mayo de 2023). Large Language Models 101: History, Evolution and Future. https://www.scribbledata.io/large-language-models-history-evolutions-and-future/

Natalia Gila es consultora de Afi
Verónica Ruiz es consultora de Afi