12 noviembre, 2019

Coloquio DCC: 15 de noviembre

El Dpto. de Ciencia de la Computación de la UC. tiene el agrado de invitarlo para este viernes 15 de noviembre en la sala Javier Pinto, Edificio San Agustín 4to. piso, de 11:30 a 13:00 horas, al siguiente Coloquio:

Título: «VISNet»

Expositor: Andrés Felipe Villa Ojeda

Profesor supervisor: Alvaro Soto

Resumen
Los recientes avances en el campo de inteligencia artificial han logrado resolver tareas del área de visión por computador, como la clasificación y segmentación de objetos en imágenes. Sin embargo, el reconocimiento de acciones humanas en videos no ha seguido este mismo camino. Esta es una de las tareas más desafiantes actualmente, ya que involucra reconocer cada uno de los objetos y actores involucrados, la interacción entre ellos y cómo estos cambian a lo largo del tiempo. Además, que el requerimiento computacional es muy alto producto de la cantidad de datos a analizar y el tamaño de la arquitectura necesaria para realizar dicho análisis. Actualmente, existen diversas arquitecturas, desde las más simples basadas en convoluciones 2D que realizan la clasificación frame a frame, hasta las más complejas que usan modelos composicionales. No obstante, ninguno de estos modelos se encuentra cerca de resolver el problema. Por esta razón, se propone una nueva arquitectura con la capacidad de generar una representación interna del actor en 3D con respecto a un punto de vista intrínseco e independiente de los videos de entrada. Permitiéndole al modelo imaginar cómo luciría una persona realizando una determinada acción, logrando de esta forma, entender mejor la acción en cuestión. Esta idea surge del hecho que en los seres humanos se activan las mismas neuronas cuando imaginan y ejecutan una acción. Así mismo, se incluye un módulo de atención, que le permite al modelo enriquecer la representación del actor con información temporal y espacial de los objetos con los que interactúa. Con el objetivo de reducir la ambigüedad en acciones cuyos movimientos luzcan similares. Este modelo será probado en el set de datos de Charades, el cual está centrado en acciones humanas en tercera