Reconocimiento de acciones en videos de profundidad

El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema d...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Ubalde, Sebastián
Formato: Tesis Doctoral
Lenguaje:Inglés
Publicado: 2015
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
Aporte de:
id todo:tesis_n5922_Ubalde
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Inglés
orig_language_str_mv Inglés
topic VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
spellingShingle VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
Ubalde, Sebastián
Reconocimiento de acciones en videos de profundidad
topic_facet VIDEO DE PROFUNDIDAD
APRENDIZAJE MULTI INSTANCIA
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCIA-A-CLASE
DEPTH VIDEO
MULTIPLE INSTANCE LEARNING
CITATION-KNN
EDIT DISTANCE ON REAL SEQUENCE
INSTANCE-TO-CLASS
description El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte.
format Tesis Doctoral
author Ubalde, Sebastián
author_facet Ubalde, Sebastián
author_sort Ubalde, Sebastián
title Reconocimiento de acciones en videos de profundidad
title_short Reconocimiento de acciones en videos de profundidad
title_full Reconocimiento de acciones en videos de profundidad
title_fullStr Reconocimiento de acciones en videos de profundidad
title_full_unstemmed Reconocimiento de acciones en videos de profundidad
title_sort reconocimiento de acciones en videos de profundidad
publishDate 2015
url https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde
work_keys_str_mv AT ubaldesebastian reconocimientodeaccionesenvideosdeprofundidad
AT ubaldesebastian actionrecognitionindepthvideos
_version_ 1807323859135758336
spelling todo:tesis_n5922_Ubalde2023-10-03T13:02:49Z Reconocimiento de acciones en videos de profundidad Action recognition in depth videos Ubalde, Sebastián VIDEO DE PROFUNDIDAD APRENDIZAJE MULTI INSTANCIA CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCIA-A-CLASE DEPTH VIDEO MULTIPLE INSTANCE LEARNING CITATION-KNN EDIT DISTANCE ON REAL SEQUENCE INSTANCE-TO-CLASS El problema de reconocer automáticamente una acción llevadaa cabo en un video está recibiendo mucha atención en la comunidad devisión por computadora, con aplicaciones que van desde el reconocimientode personas hasta la interacción persona-computador. Podemos pensar alcuerpo humano como un sistema de segmentos rígidos conectados por articulaciones,y al movimiento del cuerpo como una transformación continuade la configuración espacial de dichos segmentos. La llegada de cámarasde profundidad de bajo costo hizo posible el desarrollo de un algoritmo deseguimiento de personas preciso y eficiente, que obtiene la ubicación 3D devarias articulaciones del esqueleto humano en tiempo real. Esta tesis presentacontribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto planteavarios desafíos. En primer lugar, la posición 3D estimada para las articulacionessuele ser imprecisa. En segundo lugar, las acciones humanaspresentan gran variabilidad intra-clase. Esta variabilidad puede encontrarseno sólo en la configuración de los esqueletos por separado (por ejemplo, lamisma acción da lugar a diferentes configuraciones para diestros y para zurdos)sino tambión en la dinámica de la acción: diferentes personas puedenejecutar una misma acción a distintas velocidades; las acciones que involucranmovimientos periódicos (como aplaudir) pueden presentar diferentescantidades de repeticiones de esos movimientos; dos videos de la mismaacción puede estar no-alineados temporalmente; etc. Por último, accionesdiferentes pueden involucrar configuraciones de esqueleto y movimientossimilares, dando lugar a un escenario de gran similaridad inter-clase. Eneste trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Realsequence (EDR), una medida de similaridad entre series temporales robustay precisa. Proponemos dos mejoras clave a EDR: una función de costo suavepara el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamientotemporal de las secuencias comparadas, no requiere aprendizajede parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificaciónde secuencias, sobre todo en casos de alta variabilidad intra-clase y pocosdatos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativosen una secuencia puede ser baja. Los esqueletos restantes puedenser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo,la configuración correspondiente a un esqueleto sentado e inmóvil) uocurrir en instantes de tiempo poco comunes para la acción del video. Por lotanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clasea la que pertenece. Un bag etiquetado con una determinada clase contieneinstancias que son características de la clase, pero puede (y generalmenteasí ocurre) también contener instancias que no lo son. Siguiendo esta idea,representamos los videos como bags de descriptores de esqueleto con marcasde tiempo, y proponemos un framework basado en MIL para el reconocimientode acciones. Nuestro enfoque resulta muy tolerante al ruido, lavariabilidad intra-clase y la similaridad inter-clase. El framework propuestoes simple y provee un mecanismo claro para regular la tolerancia al ruido, ala poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicascapturadas con cámaras de profundidad. En todos los casos, se trata debases desafiantes. Los resultados muestran una comparación favorable denuestras propuestas respecto al estado del arte. The problem of automatically identifying an action performedin a video is receiving a great deal of attention in the computer vision community,with applications ranging from people recognition to human computerinteraction. We can think the human body as an articulated systemof rigid segments connected by joints, and human motion as a continuoustransformation of the spatial arrangement of those segments. The arrival oflow-cost depth cameras has made possible the development of an accurateand efficient human body tracking algorithm, that computes the 3D locationof several skeleton joints in real time. This thesis presents contributionsconcerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challengingtask. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variabilitymay be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthandedand left-handed people) but also on the action dynamics: differentpeople have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos ofthe same action may be temporally misaligned; etc. Finally, different actionsmay involve similar skeletal configurations, as well as similar movements,effectively yielding large inter-class similarity. We explore two approachesto the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between timeseries. We introduce two key improvements to EDR: a weighted matchingscheme for the points in the series and a modified aligning algorithm basedon the concept of Instance-to-Class distance. The resulting distance functiontakes into account temporal ordering, requires no learning of parametersand is highly tolerant to noise and temporal misalignment. Furthermore,it improves the results of non-parametric sequence classification methods,specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number ofdiscriminative skeletons in a sequence might be low. The rest of the skeletonsmight be noisy or too person-specific, have a configuration common toseveral actions (for example, a sit still configuration), or occur at uncommonframes. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic ofthat class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeletondescriptors, and we propose a new MIL framework for action recognitionfrom skeleton sequences. We found that our approach is highly tolerant tonoise, intra-class variability and inter-class similarity. The proposed frameworkis simple and provides a clear way of regulating tolerance to noise,temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challengingdatasets captured by depth cameras, and we show that they comparefavorably against other state-of-the-art methods. Fil: Ubalde, Sebastián. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. 2015 Tesis Doctoral PDF Inglés info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n5922_Ubalde