Gesture Recognition on Kinect Time Series Data Using Dynamic Time Warping and Hidden Markov Models

Author(s):  
Alina Delia Calin
PLoS ONE ◽  
2018 ◽  
Vol 13 (5) ◽  
pp. e0197499 ◽  
Author(s):  
Yongli Liu ◽  
Jingli Chen ◽  
Shuai Wu ◽  
Zhizhong Liu ◽  
Hao Chao

2021 ◽  
Author(s):  
Lucas Cassiel Jacaruso

Abstract Time series similarity measures are highly relevant in a wide range of emerging applications including training machine learning models, classification, and predictive modeling. Standard similarity measures for time series most often involve point-to-point distance measures including Euclidean distance and Dynamic Time Warping. Such similarity measures fundamentally require the fluctuation of values in the time series being compared to follow a corresponding order or cadence for similarity to be established. Other existing approaches use local statistical tests to detect structural changes in time series. This paper is spurred by the exploration of a broader definition of similarity, namely one that takes into account the sheer numerical resemblance between sets of statistical properties for time series segments irrespectively of value labeling. Further, the presence of common pattern components between time series segments was examined even if they occur in a permuted order, which would not necessarily satisfy the criteria of more conventional point-to-point distance measures. The newly defined similarity measures were tested on time series data representing over 20 years of cooperation intent expressed in global media sentiment. Tests determined whether the newly defined similarity measures would accurately identify stronger resemblance, on average, for pairings of similar time series segments (exhibiting overall decline) than pairings of differing segments (exhibiting overall decline and overall rise). The ability to identify patterns other than the obvious overall rise or decline that can accurately relate samples is regarded as a first step towards assessing the value of the newly explored similarity measures for classification or prediction. Results were compared with those of Dynamic Time Warping on the same data for context. Surprisingly, the test for numerical resemblance between sets of statistical properties established stronger resemblance for pairings of decline years with greater statistical significance than Dynamic Time Warping on the particular data and sample size used.


Nova Scientia ◽  
2014 ◽  
Vol 6 (12) ◽  
pp. 108
Author(s):  
Carlos A. De Luna-Ortega ◽  
Miguel Mora-González ◽  
Julio C. Martínez-Romo ◽  
Francisco J. Luna-Rosas ◽  
Jesús Muñoz-Maciel

En el presente artículo se da a conocer una alternativa algorítimica a los sistemas actuales de  reconocimiento automático del habla (ASR), mediante una propuesta en la forma de realizar la caracterización de las palabras basada en una aproximación que usa la extracción de coeficientes de la codificación de predicción lineal (LPC) y la correlación cruzada. La implementación consiste en extraer las características fonéticas mediante los coeficientes LPC, después se forman vectores de patrones de la pronunciación conformados por el promedio de los coeficientes LPC de  las muestras de las palabras obteniendo un vector característico de cada pronunciación mediante la autocorrelación de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar  un clasificador de tipo perceptrón multicapa (MLP). Se realizaron pruebas de desempeño previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utilizó la fonética de los dígitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicación, y para estimar el desempeño de este método se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncación de la región occidente de México, y el corpus Tlatoa, que hace lo propio para la región centro de México. Las señales en ambos corpus fueron adquiridas en el lenguaje español,  y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono-locutor para el corpus UPA y múltiple-locutor para el corpus Tlatoa, respectivamente. Asimismo, se realizó una comparación contra dos métodos clásicos del reconocimiento de voz y del habla, Dynamic Time Warping  (DTW) y Hidden Markov Models (HMM).


Sign in / Sign up

Export Citation Format

Share Document