Interpolación de Frames de Video

En los ultimos años, la demanda por experiencias de visualización en alta calidad ha incrementado significativamente, impulsando la adopción de resoluciones 4K y tasas de reproducción superiores a 60Hz. Sin embargo, la obtención de videos nativos con estas características es costosa en términos...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Castagnino, Salvador, Birsa, Nicolás, Ye Li, Valentín
Otros Autores:	Perez Sammartino, Francisco
Formato:	Proyecto final de grado
Lenguaje:	Español
Publicado:	2025
Materias:	INTERPOLACIÓN DE VIDEO REDES NEURONALES CONVULCIONALES TRANSFORMES
Acceso en línea:	https://ri.itba.edu.ar/handle/20.500.14769/4958
Aporte de:	Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA) de Instituto Tecnológico de Buenos Aires (ITBA)

id	I32-R138-20.500.14769-4958
record_format	dspace
spelling	I32-R138-20.500.14769-49582026-01-15T15:29:51Z Interpolación de Frames de Video Castagnino, Salvador Birsa, Nicolás Ye Li, Valentín Perez Sammartino, Francisco INTERPOLACIÓN DE VIDEO REDES NEURONALES CONVULCIONALES TRANSFORMES En los ultimos años, la demanda por experiencias de visualización en alta calidad ha incrementado significativamente, impulsando la adopción de resoluciones 4K y tasas de reproducción superiores a 60Hz. Sin embargo, la obtención de videos nativos con estas características es costosa en términos computacionales y de hardware, lo que limita su disponibilidad en dispositivos con recursos restringidos, como cámaras IoT o sistemas embebidos. Para abordar esta problemática, en este trabajo se propone una arquitectura hıbrida para interpolación de fotogramas ( ́ Video Frame Interpolation, VFI) que permite aumentar la tasa de cuadros por segundo de manera eficiente. Actualmente, los modelos existentes no suelen ser de propósito general, ya que están diseñados para priorizar la velocidad de inferencia, como las redes neuronales convolucionales (CNN), o maximizar la calidad del video interpolado, como los modelos basados en Transformers. En este contexto, se plantea una solución que combina RIFE, un modelo basado en CNN optimizado para el cálculo rápido del flujo óptico, y EMA-VFI, un modelo basado en Transformers que captura dependencias de largo alcance en las secuencias de video. La arquitectura incorpora un modulo de decisión dinámico que selecciona el modelo más adecuado en función de las características del contenido, optimizando el balance entre calidad visual y tiempo de procesamiento. Los experimentos realizados evalúan el desempeño del modelo propuesto mediante métricas estándar como PSNR, SSIM, LPIPS y FloLPIPS, evidenciando que la combinación adaptativa de CNN y Transformers permite alcanzar un equilibrio entre velocidad y calidad en la interpolación de fotogramas. Esto sugiere que la arquitectura presentada es una alternativa viable para mejorar la tasa de cuadros por segundo en aplicaciones como compresión de video, restauración y generación de contenido de alta fluidez visual. 2025-05-22T14:04:49Z 2025-05-22T14:04:49Z 2025-04 Proyecto final de grado https://ri.itba.edu.ar/handle/20.500.14769/4958 es application/pdf
institution	Instituto Tecnológico de Buenos Aires (ITBA)
institution_str	I-32
repository_str	R-138
collection	Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA)
language	Español
topic	INTERPOLACIÓN DE VIDEO REDES NEURONALES CONVULCIONALES TRANSFORMES
spellingShingle	INTERPOLACIÓN DE VIDEO REDES NEURONALES CONVULCIONALES TRANSFORMES Castagnino, Salvador Birsa, Nicolás Ye Li, Valentín Interpolación de Frames de Video
topic_facet	INTERPOLACIÓN DE VIDEO REDES NEURONALES CONVULCIONALES TRANSFORMES
description	En los ultimos años, la demanda por experiencias de visualización en alta calidad ha incrementado significativamente, impulsando la adopción de resoluciones 4K y tasas de reproducción superiores a 60Hz. Sin embargo, la obtención de videos nativos con estas características es costosa en términos computacionales y de hardware, lo que limita su disponibilidad en dispositivos con recursos restringidos, como cámaras IoT o sistemas embebidos. Para abordar esta problemática, en este trabajo se propone una arquitectura hıbrida para interpolación de fotogramas ( ́ Video Frame Interpolation, VFI) que permite aumentar la tasa de cuadros por segundo de manera eficiente. Actualmente, los modelos existentes no suelen ser de propósito general, ya que están diseñados para priorizar la velocidad de inferencia, como las redes neuronales convolucionales (CNN), o maximizar la calidad del video interpolado, como los modelos basados en Transformers. En este contexto, se plantea una solución que combina RIFE, un modelo basado en CNN optimizado para el cálculo rápido del flujo óptico, y EMA-VFI, un modelo basado en Transformers que captura dependencias de largo alcance en las secuencias de video. La arquitectura incorpora un modulo de decisión dinámico que selecciona el modelo más adecuado en función de las características del contenido, optimizando el balance entre calidad visual y tiempo de procesamiento. Los experimentos realizados evalúan el desempeño del modelo propuesto mediante métricas estándar como PSNR, SSIM, LPIPS y FloLPIPS, evidenciando que la combinación adaptativa de CNN y Transformers permite alcanzar un equilibrio entre velocidad y calidad en la interpolación de fotogramas. Esto sugiere que la arquitectura presentada es una alternativa viable para mejorar la tasa de cuadros por segundo en aplicaciones como compresión de video, restauración y generación de contenido de alta fluidez visual.
author2	Perez Sammartino, Francisco
author_facet	Perez Sammartino, Francisco Castagnino, Salvador Birsa, Nicolás Ye Li, Valentín
format	Proyecto final de grado
author	Castagnino, Salvador Birsa, Nicolás Ye Li, Valentín
author_sort	Castagnino, Salvador
title	Interpolación de Frames de Video
title_short	Interpolación de Frames de Video
title_full	Interpolación de Frames de Video
title_fullStr	Interpolación de Frames de Video
title_full_unstemmed	Interpolación de Frames de Video
title_sort	interpolación de frames de video
publishDate	2025
url	https://ri.itba.edu.ar/handle/20.500.14769/4958
work_keys_str_mv	AT castagninosalvador interpolaciondeframesdevideo AT birsanicolas interpolaciondeframesdevideo AT yelivalentin interpolaciondeframesdevideo
_version_	1865139126627467264

Interpolación de Frames de Video

Ejemplares similares