Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad

En los últimos años, en combinación con los avances tecnológicos han surgido nuevos paradigmas de interacción con el usuario. Esto ha motivado a la industria a la creación de dispositivos de Interfaz Natural de Usuario (NUI, del inglés Natural User Interface) cada vez más potentes y accesibles. E...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Alonso, Diego Gabriel
Formato: Artículo revista
Lenguaje:Español
Publicado: Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas 2020
Materias:
Acceso en línea:https://doi.org/10.52278/2415
Aporte de:
id I21-R190-123456789-2415
record_format ojs
institution Universidad Nacional del Centro
institution_str I-21
repository_str R-190
container_title_str Repositorio Institucional de Acceso Abierto (RIDAA)
language Español
format Artículo revista
topic Cámaras de profundidad
Aprendizaje profundo
Sensores
Modelo de Aprendizaje Profundo
Gestos manuales
Gestos híbridos
Ingeniería de software
Procesamiento de imágenes
Tesis de doctorado
spellingShingle Cámaras de profundidad
Aprendizaje profundo
Sensores
Modelo de Aprendizaje Profundo
Gestos manuales
Gestos híbridos
Ingeniería de software
Procesamiento de imágenes
Tesis de doctorado
Alonso, Diego Gabriel
Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
topic_facet Cámaras de profundidad
Aprendizaje profundo
Sensores
Modelo de Aprendizaje Profundo
Gestos manuales
Gestos híbridos
Ingeniería de software
Procesamiento de imágenes
Tesis de doctorado
author Alonso, Diego Gabriel
author_facet Alonso, Diego Gabriel
author_sort Alonso, Diego Gabriel
title Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
title_short Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
title_full Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
title_fullStr Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
title_full_unstemmed Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
title_sort enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad
description En los últimos años, en combinación con los avances tecnológicos han surgido nuevos paradigmas de interacción con el usuario. Esto ha motivado a la industria a la creación de dispositivos de Interfaz Natural de Usuario (NUI, del inglés Natural User Interface) cada vez más potentes y accesibles. En particular, las cámaras de profundidad han alcanzado grandes niveles de adopción por parte de los usuarios. Entre estos dispositivos se destacan la Microsoft Kinect, la Intel RealSense y el Leap Motion Controller. Este tipo de dispositivos facilitan la adquisición de datos en el Reconocimiento de Actividades Humanas (HAR, del inglés Human Activity Recognition). HAR es un área que tiene por objetivo la identificación automática, dentro de secuencias de imágenes, de actividades realizadas por seres humanos. Entre los diferentes tipos de actividades humanas se encuentran los gestos manuales, es decir, aquellos realizados con las manos. Los gestos manuales pueden ser estáticos o dinámicos, según si presentan movimiento en las secuencias de imágenes. El reconocimiento de gestos manuales permite a los desarrolladores de sistemas de Interacción Humano-Computadora (HCI, del inglés Human-Computer Interaction) crear experiencias e interacciones más inmersivas, naturales e intuitivas. Sin embargo, esta tarea no resulta sencilla. Es por ello que, en la academia se ha abordado esta problemática con el uso de técnicas de aprendizaje de máquina. Tras el análisis del estado del arte actual, se ha identificado que la gran mayoría de los enfoques propuestos no contemplan el reconocimiento de los gestos estáticos y los dinámicos en forma simultánea (enfoques híbridos). Es decir, los enfoques están destinados a reconocer un solo tipo de gestos. Además, dado el contexto de sistemas HCI reales debe tenerse en cuenta también el costo computacional y el consumo de recursos de estos enfoques, con lo cual los enfoques deberían ser livianos. Por otra parte, casi la totalidad de los enfoques presentes en el estado del arte abordan la problemática ubicando las cámaras frente a los usuarios (perspectiva de segunda persona) y no desde la perspectiva de primera persona (FPV, del inglés First-Person View), en la que el usuario posee un dispositivo colocado sobre sí mismo. Esto puede asociarse con que recién en los últimos años han surgido dispositivos relativamente ergonómicos (pequeños, de peso ligero) que permitan considerar una perspectiva FPV viable. En este contexto, en la presente tesis se propone un enfoque liviano para el reconocimiento de gestos híbridos con cámaras de profundidad teniendo en cuenta la perspectiva FPV. El enfoque propuesto consta de 3 grandes componentes. En primer lugar, el de Adquisición de Datos, en el cual se define el dispositivo a utilizar y se recopilan las imágenes y la información de profundidad que es normalizada al rango de valores de 0 a 255 (escala de los canales RGB). En segundo lugar, el de Preprocesamiento, el cual tiene por objetivo hacer que dos secuencias de imágenes con variaciones temporales sean comparables. Para ello, se aplican técnicas de remuestreo y reducción de resolución. Además, en este componente se computa el flujo óptico determinado por las secuencias de imágenes a color que se poseen. En particular, se utiliza el flujo óptico como un nuevo canal de información dadas sus ventajas en lo que respecta a un análisis espacio-temporal de los videos. En tercer lugar, con las secuencias muestreadas y con la información de flujo óptico, se procede al componente Modelo de Aprendizaje Profundo, donde se aplican técnicas de aprendizaje profundo que permiten abordar las etapas de extracción de características y de clasificación. Particularmente, se propone una arquitectura de red convolucional densamente conectada con soporte multi-modal. Cabe destacar que, la fusión de las modalidades no es en etapa temprana ni tardía sino dentro del mismo modelo. De esta manera, se obtiene un modelo end-to-end que obtiene beneficios de los canales de información en forma separada y también conjunta. Los experimentos realizados han mostrado resultados muy alentadores (alcanzando un 90% de exactitud) indicando que la elección de este tipo de arquitecturas permite obtener una gran eficiencia de parámetros así como también de tiempos de predicción. Cabe resaltar que, las pruebas son realizadas sobre un conjunto de datos relevante del área. En base a ello, se analiza el desempeño de la presente propuesta en relación a diferentes escenarios como con variación de iluminación o movimiento de cámara, diferentes tipos de gestos, sensibilidad o sesgo por personas, entre otros.
publisher Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas
publishDate 2020
url https://doi.org/10.52278/2415
work_keys_str_mv AT alonsodiegogabriel enfoquelivianoparareconocimientodegestosmanualeshibridosconcamarasdeprofundidad
first_indexed 2022-07-04T14:37:47Z
last_indexed 2024-08-12T22:50:44Z
_version_ 1807223928067719168
spelling I21-R190-123456789-24152023-05-31T13:41:53Z Enfoque liviano para reconocimiento de gestos manuales híbridos con cámaras de profundidad Alonso, Diego Gabriel Soria, Álvaro Berdun, Luis Cámaras de profundidad Aprendizaje profundo Sensores Modelo de Aprendizaje Profundo Gestos manuales Gestos híbridos Ingeniería de software Procesamiento de imágenes Tesis de doctorado En los últimos años, en combinación con los avances tecnológicos han surgido nuevos paradigmas de interacción con el usuario. Esto ha motivado a la industria a la creación de dispositivos de Interfaz Natural de Usuario (NUI, del inglés Natural User Interface) cada vez más potentes y accesibles. En particular, las cámaras de profundidad han alcanzado grandes niveles de adopción por parte de los usuarios. Entre estos dispositivos se destacan la Microsoft Kinect, la Intel RealSense y el Leap Motion Controller. Este tipo de dispositivos facilitan la adquisición de datos en el Reconocimiento de Actividades Humanas (HAR, del inglés Human Activity Recognition). HAR es un área que tiene por objetivo la identificación automática, dentro de secuencias de imágenes, de actividades realizadas por seres humanos. Entre los diferentes tipos de actividades humanas se encuentran los gestos manuales, es decir, aquellos realizados con las manos. Los gestos manuales pueden ser estáticos o dinámicos, según si presentan movimiento en las secuencias de imágenes. El reconocimiento de gestos manuales permite a los desarrolladores de sistemas de Interacción Humano-Computadora (HCI, del inglés Human-Computer Interaction) crear experiencias e interacciones más inmersivas, naturales e intuitivas. Sin embargo, esta tarea no resulta sencilla. Es por ello que, en la academia se ha abordado esta problemática con el uso de técnicas de aprendizaje de máquina. Tras el análisis del estado del arte actual, se ha identificado que la gran mayoría de los enfoques propuestos no contemplan el reconocimiento de los gestos estáticos y los dinámicos en forma simultánea (enfoques híbridos). Es decir, los enfoques están destinados a reconocer un solo tipo de gestos. Además, dado el contexto de sistemas HCI reales debe tenerse en cuenta también el costo computacional y el consumo de recursos de estos enfoques, con lo cual los enfoques deberían ser livianos. Por otra parte, casi la totalidad de los enfoques presentes en el estado del arte abordan la problemática ubicando las cámaras frente a los usuarios (perspectiva de segunda persona) y no desde la perspectiva de primera persona (FPV, del inglés First-Person View), en la que el usuario posee un dispositivo colocado sobre sí mismo. Esto puede asociarse con que recién en los últimos años han surgido dispositivos relativamente ergonómicos (pequeños, de peso ligero) que permitan considerar una perspectiva FPV viable. En este contexto, en la presente tesis se propone un enfoque liviano para el reconocimiento de gestos híbridos con cámaras de profundidad teniendo en cuenta la perspectiva FPV. El enfoque propuesto consta de 3 grandes componentes. En primer lugar, el de Adquisición de Datos, en el cual se define el dispositivo a utilizar y se recopilan las imágenes y la información de profundidad que es normalizada al rango de valores de 0 a 255 (escala de los canales RGB). En segundo lugar, el de Preprocesamiento, el cual tiene por objetivo hacer que dos secuencias de imágenes con variaciones temporales sean comparables. Para ello, se aplican técnicas de remuestreo y reducción de resolución. Además, en este componente se computa el flujo óptico determinado por las secuencias de imágenes a color que se poseen. En particular, se utiliza el flujo óptico como un nuevo canal de información dadas sus ventajas en lo que respecta a un análisis espacio-temporal de los videos. En tercer lugar, con las secuencias muestreadas y con la información de flujo óptico, se procede al componente Modelo de Aprendizaje Profundo, donde se aplican técnicas de aprendizaje profundo que permiten abordar las etapas de extracción de características y de clasificación. Particularmente, se propone una arquitectura de red convolucional densamente conectada con soporte multi-modal. Cabe destacar que, la fusión de las modalidades no es en etapa temprana ni tardía sino dentro del mismo modelo. De esta manera, se obtiene un modelo end-to-end que obtiene beneficios de los canales de información en forma separada y también conjunta. Los experimentos realizados han mostrado resultados muy alentadores (alcanzando un 90% de exactitud) indicando que la elección de este tipo de arquitecturas permite obtener una gran eficiencia de parámetros así como también de tiempos de predicción. Cabe resaltar que, las pruebas son realizadas sobre un conjunto de datos relevante del área. En base a ello, se analiza el desempeño de la presente propuesta en relación a diferentes escenarios como con variación de iluminación o movimiento de cámara, diferentes tipos de gestos, sensibilidad o sesgo por personas, entre otros. Fil: Alonso, Diego Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Soria, Álvaro. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Berdun, Luis. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. 2020-02 2020-12-14T15:58:28Z 2020-12-14T15:58:28Z info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/acceptedVersion https://doi.org/10.52278/2415 https://www.ridaa.unicen.edu.ar/handle/123456789/2415 spa http://creativecommons.org/licenses/by-sa/2.5/ar/ info:eu-repo/semantics/openAccess application/pdf application/pdf Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas