Este curso ofrece una introducción práctica y conceptual a los fundamentos y aplicaciones de la inteligencia artificial generativa y multimodal. A través de una combinación equilibrada entre teoría y práctica, los estudiantes explorarán cómo los modelos generativos modernos —incluyendo modelos de visión (redes generativas adversarias (GANs) y modelos de difusión), modelos de audio, y modelos de lenguaje de gran escala (textuales y multimodales)— pueden crear, transformar y comprender distintos tipos de contenido como texto, imágenes, audio y datos multimodales.
El curso busca que los participantes adquieran una comprensión integral de las arquitecturas subyacentes, los principios de entrenamiento, la evaluación y las consideraciones éticas de estos sistemas. Asimismo, los laboratorios "hands-on" permitirán experimentar directamente con herramientas y bibliotecas actuales del ecosistema de IA (como HuggingFace's transformers, diffusers, peft, ...) para construir, adaptar y combinar modelos generativos en escenarios reales. Al finalizar, los estudiantes contarán con los conocimientos necesarios para diseñar e implementar soluciones creativas basadas en IA generativa en diversos dominios!
Objetivos del curso
Al finalizar este curso, se espera que los y las estudiantes sean capaces de:
Comprender y aplicar técnicas avanzadas de inteligencia artificial generativa para la creación y manipulación de diversos tipos de contenido, incluyendo texto, imágenes y audio.
Entender los principios detrás de los modelos generativos más utilizados en la actualidad, como las redes generativas adversarias (GANs), los modelos de difusión y los modelos de lenguaje de gran escala (LLMs y LMMs).
Utilizar bibliotecas y herramientas especializadas, como Transformers o PEFT, para implementar estas técnicas de manera eficiente en distintos contextos.
Integrar modelos generativos en proyectos creativos o de innovación, demostrando la capacidad de combinar diferentes modalidades (texto, imagen, audio) en aplicaciones originales.
A nivel práctico:
Entrenar, ajustar e implementar modelos generativos para tareas específicas en texto, visión, audio y modalidades combinadas.
Aplicar técnicas de fine-tuning e instruction tuning para adaptar modelos preentrenados a nuevos dominios o lenguajes.
Integrar modelos de recuperación aumentada (RAG) y agentes multimodales para el diseño de sistemas interactivos basados en IA generativa.
Evaluar la calidad, sesgos y limitaciones de los modelos generativos en escenarios reales, promoviendo el uso ético y responsable de estas tecnologías.
Modelos de Visión:
Cátedra: GANs, modelos autoregresivos, autoencoders variacionales y modelos de difusión.
Laboratorio: Edición de caras con GANs.
Modelos de Lenguaje (LLM):
Cátedra: Modelización del lenguaje, entropía y temperatura, habilidades e In-Context Learning, tokenización, pérdidas de entrenamiento, instrucciones, alineamiento, razonamiento, entrenamiento en práctica, evaluación en práctica.
Laboratorio: Instruction-tuning de un LLM.
Modelos de Audio:
Cátedra: Procesamiento del audio, tareas, modelos básicos (wav2vec, HuBERT, wavLM, AST), Speech-aware LLMs (Qwen2Audio, SALMONN, Audio-Flamingo), representaciones generales (AudioMAE, BYOL-A, BEATS), evaluación, tokenización y códecs, generación de música.
Laboratorio: Music Genre Classification usando modelos de audio preentrenados.
Modelos Multimodales:
Cátedra: Multimodalidad: definición y desafíos, tipos de fusiones multimodales, primeros transformadores (LXMERT, ViLT, VL-BERT, ...), coordinación en un espacio latente (CLIP), Stable Diffusion, modelos generativos (BLIP1–2), modelos basados en LLM (Flamingo, Frozen, LLaVA, BLIP3), datasets de entrenamiento, benchmarks de evaluación, tokenización y modelos de video.
Laboratorio: Disaster Multimodal Tweets Classification usando modelos unimodales y multimodales generativos preentrenados.
LLM y LMM avanzados:
Cátedra: Eficiencia, RAG, herramientas y agentes.
Laboratorio: RAG y RAG multimodal.
Programa
Cada tema será un día, por 1h30 de clase cátedra y 1h30 de laboratorio (hands-on session).
Este curso es basado en modelos de deep learning, así que se necesitan bases de: Machine Learning, y Deep Learning. Sería mejor de tener bases en NLP, y en procesamiento del señal (entender los conceptos de STFT, escala Mel, etc...) aunque no es necesario.
Cursos
CS224N: Natural Language Processing with Deep Learning: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1244/
CMU-MMML: https://cmu-mmml.github.io/
Libros
Tunstall, L., Von Werra, L., Wolf, T. (2022). Natural language processing with transformers. O'Reilly Media, Inc.
Alammar, J., Grootendorst, M. (2024). Hands-on large language models: language understanding and generation. O'Reilly Media, Inc.
David Foster, Generative Deep Learning, 2nd Edition. O'Reilly Media, Inc.
Sanseviero, O., Cuenca, P., Passos, A., Whitaker, J. (2024). Hands-On Generative AI with Transformers and Diffusion Models. O'Reilly Media, Inc.
Artículos
Liang, P. P., Zadeh, A., & Morency, L. P. (2024). Foundations & trends in multimodal machine learning: Principles, challenges, and open questions. ACM Computing Surveys, 56(10), 1-42.