IA Generativa y LLMs
La Inteligencia Artificial generativa es la rama de la IA que más ha capturado recientemente el interés tanto de consumidores como de las empresas, debido a su capacidad para crear nuevo contenido, desde texto hasta imágenes, y para entablar conversaciones en lenguaje natural con la comprensión de matices propias del ser humano.
A diferencia de las técnicas de machine learning, que generalmente implican analizar datos para realizar predicciones o categorizar información, la IA generativa puede producir nuevas instancias de datos que reflejan la distribución de los datos originales, impulsando una fiebre de productividad, automatización y transformación en todas las industrias.
¿Cómo funciona la IA generativa?
La IA generativa funciona a través de una combinación de técnicas avanzadas de machine learning, arquitecturas de redes neuronales y modelos aplicativos.
Se ha beneficiado en los últimos años de mayores capacidades de computación, de arquitecturas específicas como los Transformers y los GANs (Generative Adversarial Network), y del avance de técnicas específicas (fine-tuning, promting, contextualización), para convertirse en una herramienta versátil capaz de manejar y sintetizar datos multimodales.
Para aplicaciones basadas en texto, la piedra angular de esta tecnología es el uso de Modelos de Lenguaje de Gran Escala (LLMs). Son expertos en comprender y generar lenguaje humano procesando grandes cantidades de datos textuales. Predicen segmentos de texto subsecuentes calculando la probabilidad de ocurrencia de palabras, basándose en el contexto proporcionado por las palabras anteriores. No sólo se trata de predecir la próxima palabra en una respuesta, sino de generar contenido coherente y contextualmente adecuado a lo largo de párrafos o incluso documentos enteros.
Más allá del texto, la IA generativa también está revolucionando el trabajo con imágenes, audio y video a través de modelos multimodales. Los modelos de imágenes como los Transformers, las Redes Generativas Antagónicas (GANs) y los modelos de difusión son técnicas avanzadas de machine learning, que se utilizan para procesar y generar imágenes.
Estos modelos pueden interpretar y generar contenido que combina diferentes tipos de datos, como DALL-E para imágenes, que puede crear imágenes a partir de descripciones textuales, o WaveNet para audio, que puede generar un habla natural que se adapta a diversos idiomas y emociones. En el ámbito del video, los modelos generativos pueden sintetizar secuencias de video realistas o alterar las existentes para crear nuevas interpretaciones.
Transformers y arquitecturas de LLM
Los Transformers, desde su creación con el paper de Google en 2017 «Attention Is All You Need”, han sustentado el desarrollo de Modelos de Lenguaje de Gran Escala (LLMs) como GPT, Llama, Mistral, o Bert. Se les reconoce una mayor y mejor representación del mundo, llevando entre otras cosas a una comprensión y una generación más fina del lenguaje humano.
La innovación clave introducida por Google en 2017 fue el mecanismo de auto-atención, que permite que el modelo procese cada palabra en el contexto de todas las demás en una oración, llevando a respuestas más coherentes y contextualmente relevantes.
El progreso hacia modelos como GPT4 (OpenAI), Claude 2 (Anthropic), BARD (Google), Llama 2 (Meta) se ha caracterizado por un aumento en el tamaño y la complejidad de estos Transformers, con GPT-4 siendo uno de los más grandes con alrededor de 1500 mil millones de parámetros. El tamaño creciente de estos modelos ha estado correlacionado con un mejoras significativas de performance, siguiendo lo que se conoce como leyes de escala: a medida que aumenta el tamaño del modelo, también lo hace su capacidad para capturar y replicar las sutilezas del lenguaje humano.
Esta capacidad lo ha convertido en una herramienta valiosa para aplicaciones que van desde la escritura creativa hasta la resolución de problemas técnicos.
IA generativa para empresas
El ajuste fino (fine-tuning) de los LLMs desempeña un papel crucial en la aplicación de estos modelos en entornos de negocios. Al entrenarlos más con conjuntos de datos especializados, pueden ser adaptados a tareas específicas, industrias o idiomas, abriendo un sinfín de posibilidades en cualquier sector y área de negocio. Por ejemplo:
- Marketing: Redacción de contenidos y creación gráfica, hiper-personalización de correos, análisis de sentimientos online, hiper-segmentación de clientes.
- Desarrollo de Software: generación autónoma de código, asistencia en escritura, revisión y correcciones.
- Diseño de conceptos, productos, procesos y en su caso propuestas de mejoras en los existentes.
- Biotecnología: Aceleración del descubrimiento de fármacos prediciendo estructuras moleculares.
- Chatbots de consultas para atención al cliente, soporte IT (Helpdesk), con consultas a bases de datos internas (contratos, procedimientos, manuales…).
- Administración: generación de facturas, informes, análisis periódicos, pedidos.
Técnicas específicas basadas en LLM
Las aplicaciones empresariales basadas en IA generativa incorporan un Modelo de Lenguaje de Gran Escala (LLM), como uno de varios componentes dentro de un ecosistema de software.
Estos modelos proporcionan generación y comprensión de lenguaje sofisticadas, pero deben trabajar en conjunto con otras técnicas para cumplir tareas complejas, que necesiten contexto, cálculos o razonamientos. Por citar los acrónimos más utilizados:
- PEFT (Parameter Efficient Fine Tuning): técnica que ajusta sólo ciertos parámetros de un modelo base, para mejorar el rendimiento en tareas específicas con un entrenamiento mínimo.
- RAG (Generación Aumentada por Recuperación): método que combina LLMs con la recuperación de datos externos (web) o internos de la empresa, para proporcionar respuestas contextualizadas a las consultas. Embeddings, bases de vectores y gráficas de conocimiento son algunas de las técnicas utilizadas para búsqueda semántica.
- CoT, ToT, GoT (Chain, Tree, Graph-Of-Thought): enfoques que estructuran el proceso de respuesta de los LLMs y muestra el razonamiento paso a paso detrás de sus conclusiones, mejorando la interpretabilidad.
- PAL (Program Aided Language): enfoque donde los LLMs hacen llamada a programas adicionales, como pasos intermedios para resolver problemas complejos donde les faltan destreza. Por ejemplo, transformar una consulta que suponga cálculos en código Python vía Code Interpreter, para su resolución.
- ReACT (Reasoning and Acting): técnicas que entrenan los LLMs para proporcionar respuestas que consideran el contexto y las acciones potenciales, a menudo utilizadas en escenarios interactivos.
- RLHF (Reinforcement Learning with Human Feedback): ajuste de entrenamiento donde los LLMs mejoran mediante prueba y error, guiados por retroalimentación proporcionada por humanos, para asegurar que la respuesta esté alineada con los valores humanos.
Retos de la IA generativa en los negocios
La IA generativa está revolucionando los negocios, logrando avances notables en productividad, experiencia del cliente e innovación. Pero los avances tecnológicos y su integración en los procesos de negocio no son exentos de retos.
Es crucial para las empresas identificar proyectos que ofrezcan un valor significativo con un riesgo mínimo, equilibrando el potencial de retorno de inversión con la alineación estratégica, la estabilidad operativa y la reputación de las mismas.
- Sesgo, Utilidad, Toxicidad, Honestidad de las respuestas: existe un trabajo continuo sobre datos de entrenamiento, instrucciones y ajustes para que Las aplicaciones faciliten respuestas sin sesgo ni toxicidad, con información veraz y útiles al usuario.
- Privacidad y Seguridad de Datos: El manejo de datos sensibles por sistemas de IA generativa exige rigurosas medidas de seguridad, trazabilidad e interpretabilidad, así como el cumplimiento de regulaciones en evolución constante.
- Elección de LLM: Decidir sobre el LLM adecuado para una aplicación implica ponderar opciones entre modelos de código abierto y propietarios, considerando el equilibrio entre el tamaño del modelo y la especificidad de la tarea, y evaluando el coste total de propiedad (TCO).
- Calidad y Preparación de las Bases de Datos de Conocimiento: La utilidad de la IA generativa depende de la calidad de las fuentes de datos y la sofisticación de la indexación para la búsqueda semántica (bases de datos de vectores, técnicas de incrustación, etc.).
- Madurez Tecnológica: Las empresas deben adoptar una cultura de experimentación, mentalidad de prueba y error, iterando y refinando aplicaciones de IA y manteniéndose flexibles para seguir el ritmo de la evolución de las técnicas de IA.
- Preparación de los Equipos: Preparar al personal para la integración de la IA es clave, requiriendo un cambio cultural hacia la innovación, y una formación dirigida para desarrollar competencias de IA dentro de la compañía.