Gestos manos

Investigadores del MIT (Massachusetts Institute of Technology – Instituto tecnológico de Massachusetts) están desarrollando un sistema que le permitiría a las tripulaciones de portaaviones dirigir aviones autónomos usando gestos con las manos.

Larry Hardesty, MIT News OfficeOriginal (en inglés)

Las tripulaciones de los portaaviones utilizan una serie de gestos estándar con las manos para guiar aviones a la cubierta del portaaviones. Pero ya que los aviones robóticos se utilizan con cada vez más frecuencia para misiones aéreas rutinarias, los investigadores en el MIT están trabajando en un sistema que les permitiría seguir el mismo tipo de gestos.

El problema de interpretar señales con las manos tiene dos partes diferentes. El primero es simplemente inferir la postura del cuerpo de quien señala de una imagen digital: ¿Están las manos arriba o abajo, los codos hacia dentro o hacia afuera? El segundo es determinar que gesto específico es mostrado en una serie de imágenes. Los investigadores del MIT están sobre todo preocupados con el segundo problema; presentaron su solución en la edición de marzo del diario ACM Transactions on Interactive Intelligent Systems (Transacciones ACM en Sistemas Interactivos Inteligentes). Pero para probar su acercamiento, también tuvieron que abordar el primer problema, lo que hicieron en un trabajo presentado en la Conferencia Internacional de Reconocimiento Automático de Rostro y Gestos del IEEE (Institute of Electrical and Electronics Engineers – Instituto de Ingenieros Eléctricos y Electrónicos) del año pasado.

Yale Song, un estudiante de doctorado en el Departamento de Ingeniería Eléctrica y Ciencia Computacional en el MIT, y su consejero, el profesor de ciencias computacionales Randall Davis, y David Demirdjian, un científico investigador en el Laboratorio de Ciencia Computacional e Inteligencia Artificial (CSAIL – Computer Science and Artificial Intelligence Laboratory) del MIT, grabaron una serie de videos en los que diversas personas realizaron un conjunto de 24 gestos comúnmente usados por personal de la tripulación de cubierta de un portaaviones. Para probar su sistema de identificación de gestos, primero tuvieron que determinar la pose corporal de cada sujeto en cada cuadro de video. “Estos días puedes fácilmente utilizar un Kinect común o muchos otros controladores”, dice Song, refiriéndose al popular dispositivo de Xbox de Microsoft que le permite a los jugadores controlar videojuegos usando gestos. Pero eso no existía cuando los investigadores del MIT comenzaron su proyecto; para hacer las cosas más complicadas, sus algoritmos tenían que inferir no solo la posición del cuerpo sino además las formas de las manos de los sujetos.

El software de los investigadores del MIT representó el contenido de cada cuadro de video usando solo unas pocas variables: datos tridimensionales sobre las posiciones de los codos y las muñecas, y si las manos estaban abiertas o cerradas, los pulgares abajo o arriba. La base de datos en la que los investigadores guardaron secuencias de dichas representaciones abstractas fue el sujeto de la revista académica del año pasado. Para la nueva revista académica, usaron esa base de datos para entrenar sus algoritmos de clasificación de gestos.

El principal cambio en clasificar las señales, explicó Song, es que la entrada – la secuencia de posiciones corporales – es continua: Miembros de la tripulación de la cubierta del portaaviones están en constante movimiento. El algoritmo que clasifica los gestos, sin embargo, no puede esperar hasta que dejen de moverse para comenzar su análisis. “No podemos simplemente darle miles de cuadros de video, por que tomaría una eternidad”, dice Song.

Por lo tanto el algoritmo de los investigadores trabaja en una serie de pequeñas secuencias de posiciones corporales; cada una es de alrededor de 60 cuadros de longitud, o el equivalente de casi 3 segundos de video. Las secuencias se enciman: La segunda secuencia podría comenzar a, digamos, el cuadro 10 de la primera secuencia, la tercera secuencia al cuadro 10 de la segunda, y así sucesivamente. El problema es que ninguna secuencia puede contener la suficiente información para identificar comprensivamente un gesto, y el nuevo gesto podría comenzar en el medio de un cuadro.

Por cada cuadro en una secuencia, el algoritmo calcula la probabilidad de que pertenezca a cada uno de los 24 gestos. Entonces calcula una media ponderada de las probabilidades para la secuencia entera, lo que mejora la precisión, ya que los promedio preservan información sobre como cada cuadro se relaciona con los anteriores y los subsecuentes. Al evaluar las probabilidades colectivas de secuencia sucesivas, el algoritmo también asume que los gestos no cambian demasiado rápidamente o que son muy erráticos.

En pruebas, el algoritmo de los investigadores correctamente identificó los gestos recolectados en la base de datos de entrenamiento con una precisión de 76 por ciento. Obviamente, ese no es un porcentaje lo suficientemente alto para una aplicación en la cual la tripulación de cubierta – y piezas multimillonarias de equipo – confíen su seguridad. Pero Song cree que sabe como incrementar la precisión del sistema. Parte de la dificultad al entrenar el algoritmo de clasificación es que tiene que considerar muchas posibilidades para cada pose que le es presentada: Por cada posición del brazo hay cuatro posibles posiciones de mano, y por cada posición de mano hay seis diferentes posiciones de brazo. En un trabajo en curso, los investigadores están modificando el algoritmo para que considere los brazos y las manos por separado, lo que reduciría drásticamente la complejidad computacional de su tarea. Como consecuencia, debe aprender a identificar gestos de los datos de entrenamiento mucho más eficientemente.

Philip Cohen, co-fundador y vicepresidente ejecutivo de investigación en Adapx, una compañía que construye interfaces de computadora que dependen de medios naturales de expresión, como escritura y habla, dice que la nueva revista académica de los investigadores del MIT ofrece “una extensión novedosa y una combinación de técnicas de reconocimiento de gestos basado en modelo y apariencia para rastreo del cuerpo y las manos utilizando visión computacional y aprendizaje de máquinas”.

“Estos resultados son importantes y presagian una nueva etapa de investigación que integra el reconocimiento de gestos basado en visión a tecnologías de interacción multimodales humano-computadora y humano-robot”, dice Cohen.

Reimpreso con permiso de MIT News.

Fuente
http://web.mit.edu/ (en inglés)

Published by Juan Valencia

Trabajo como Autor y Editor en XCuriosidades, además de encargarme de la parte técnica. Soy un Desarrollador Web con muchos años trabajando en el ramo.

Leave a comment