Esta disciplina busca familiarizar os alunos com as técnicas modernas de aprendizagem de máquina e suas aplicações ao processamento de sinais de voz e estimular a busca de melhoramentos e alternativas a essas técnicas vigentes.
Quantização de sinais e redes neurais estáticas. Transformadas espectrotemporais. Predição linear de sinais de voz. Reconhecimento de voz: alinhamento temporal dinâmico e modelos ocultos de Markov. Arquiteturas neurais e algoritmos de aprendizagem. Redes neurais profundas.
As aulas da disciplina consistem em uma parte teórica e uma prática. Na parte teórica, serão combinados alguns conceitos vistos nas disciplinas das linhas de formação em Processamento de Sinais e Sistemas Inteligentes do curso de Eletrônica e Sistemas. Além disso, serão introduzidos conceitos novos de Processamento de Voz e de Aprendizagem de Máquina com ênfase nas aplicações. Na parte prática, os alunos resolverão exercícios computacionais utilizando um programa de simulação numérica (por exemplo, Matlab, Scilab, Octaveetc). 1. Introdução 1.1. Quantizadores ótimos, quantização vetorial, algoritmo de Linde-Buzo-Gray (LBG). 2. Mapas auto-organizáveis3. A transformada de Fourier de curto prazo (STFT). 4. Predição linear 4.1. Modelo linear de produção da voz e o espectro de curto prazo. 4.2. Predição do sinal de voz. 5. Reconhecimento de Voz: Fundamentos de Reconhecimento de Padrões. 5.1. Alinhamento Temporal Dinâmico (Dynamic Time Warping- DTW). 5.2 Modelos ocultos de Markov (HMM). 6. Arquiteturas Neurais e Algoritmos de Aprendizado. 6.1 Redes neurais profundas (DNN).
[1] N. S. JAYANT, P. NOLL, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984. [2] W. C. CHU, Foundation and evolution of standardized coders. New York: John Wiley & Sons, 2003. [3] A. M. KONDOZ, Digital Speech: Coding for low rate communication systems. New York: John Wiley & Sons, 2004. [4] M. ARJONA RAMÍREZ, M. MINAMI, Low bit rate speech coding. In: J. G. PROAKIS (Ed.) Wiley Encyclopedia of Telecommunications. New York: Wiley, 2003, v. 3, p. 1299-1308. [5] M. ARJONA RAMÍREZ, M. MINAMI, Technology and Standards for Low-Bit-Rate Vocoding Methods. In: H. BIDGOLI (Ed.) The Handbook of Computer Networks. New York: Wiley, 2008, v. 2, p. 447-467. [6] TOKUNBO OGUNFUNMI, MADIHALLY (SIM) NARASIMHA., Principles of Speech Coding: CRC Press, 2010. [7] NICOLAS MOREAU, Tools for Signal Compression: Applications to Speech and Audio Coding. Wiley-ISTE, 2011. [8] T. P. BARNWELL III, K. NAYEBI, C. H. RICHARDSON, Speech coding: A computer laboratory textbook. New York: John Wiley & Sons, 1995. [9] S. FURUI, Digital speech processing, synthesis, and recognition. New York: Marcel Dekker, 1985. [10] L. R. RABINER, R. W. SCHAFER, Theory and Applications of Digital Speech Processing. Upper Saddle River: Pearson Higher Education, 2010. [11] L. R. RABINER, R. W. SCHAFER, Digital processing of speech signals. Englewood Cliffs: Prentice-Hall, 1978. [12] L. R. RABINER, B. H. JUANG, Fundamentals of speech recognition. Englewood Cliffs: Prentice-Hall, 1993. [13] J. R. DELLER, J. G. PROAKIS, J. H. L. HANSEN, Discrete-time processing of speech signals. Englewood Cliffs: Prentice-Hall, 1993. [14] E. R. BINGHAM, S. KASKI, J. LAAKSONEN. J. LAMPINEN, Advances in independent component analysis and learning machines. Amsterdam: Elsevier Academic Press, 2015. [15] D. BARBER, Bayesian reasoning and machine learning. Cambridge: Cambridge University Press, 2012.