Profesor(es)
Helisa Dhamo
Turno
Turno Mañana (09:00 a 12:00)
Cupo
110
Idioma
Inglés
Descripción

El aprendizaje profundo es un método de aprendizaje automático que se basa en aprender patrones a partir de un conjunto grande de ejemplos. Es un método particularmente
interesante para problemas complejos, para los cuales los datos (experiencia) están ampliamente disponibles, pero formular una solución analítica no es factible. En este curso,
exploraremos los conceptos básicos de la inteligencia profunda y la visión por computadora.
Mostraremos a través de conferencias teóricas y ejemplos prácticos cómo crear y entrenar modelos de inteligencia profunda según la tarea (detección de objetos, segmentación de instancias, predicción de relaciones entre objetos) y la modalidad de datos (imagen, video, 3D). El curso concluirá con una introducción a algunos temas avanzados y una discusión sobre tendencias recientes.

Programa del curso

Programa
– Motivación: demostración de aplicaciones de la inteligencia profunda en visión por computadora.
– Introducción a los fundamentos de la visión por computadora.
– Codificación básica utilizando la biblioteca OpenCV.
– Fundamentos de la inteligencia profunda y redes neuronales convolucionales.
– Introducción a un marco común de inteligencia profunda (PyTorch). Codificación básica en PyTorch.
– Inteligencia Profunda para la visión por computadora en 2D y percepción.
– Representaciones en 3D en la visión por computadora. Inteligencia profunda para la visión en 3D.
– Tema avanzado: comprender escenas dependientes del contexto utilizando gráficos de escenas.
– Resumen de tendencias muy recientes en la visión por computadora.
– Ideas para futuras investigaciones, consideraciones éticas y aplicaciones importantes.

Requisitos del curso

Nociones básicas de álgebra lineal y análisis (nivel CBC), probabilidad y estadística y
programación (preferiblemente en Python).
Opcional: nociones de Machine Learning, procesamiento de señales, grafos.

Bibliografía

– Goodfellow, I. J., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press, Cambridge, MA, USA. http://www.deeplearningbook.org.
– Hartley, R. I. and Zisserman, A. (2004). Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521540518, second edition.
– He, K., Gkioxari, G., Dollar, P., and Girshick, R. (2017). Mask r-cnn. In Proceedings of the IEEE International Conference on Computer Vision (ICCV).
– Qi, C. R., Su, H., Mo, K., and Guibas, L. J. (2017). Pointnet: Deep learning on point sets for 3d classification and segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
– Wald, J., Dhamo, H., Navab, N., and Tombari, F. (2020). Learning 3d semantic scene graphs from 3d indoor reconstructions. In Conference on Computer Vision and Pattern
Recognition (CVPR).
– Xu, D., Zhu, Y., Choy, C., and Fei-Fei, L. (2017). Scene graph generation by iterative message passing. In Computer Vision and Pattern Recognition (CVPR).