Informações da Disciplina

 Preparar para impressão 

Júpiter - Sistema de Gestão Acadêmica da Pró-Reitoria de Graduação


Escola Politécnica
 
Eng de Sistemas Eletrônicos
 
Disciplina: PSI3501 - Processamento de Voz e Aprendizagem de Máquina
Speech Processing and Machine Learning

Créditos Aula: 4
Créditos Trabalho: 0
Carga Horária Total: 60 h
Tipo: Semestral
Ativação: 01/01/2018 Desativação:

Objetivos
Esta disciplina busca familiarizar os alunos com as técnicas modernas de aprendizagem de máquina e suas aplicações ao processamento de sinais de voz e estimular a busca de melhoramentos e alternativas a essas técnicas vigentes.
 
This course intends to get students familiar with modern machine learning techniques and their applications to speech signal processing and, moreover, stimulate the search for improvements and alternative techniques.
 
 
Docente(s) Responsável(eis)
51283 - Emílio Del Moral Hernandez
84467 - Miguel Arjona Ramirez
 
Programa Resumido
Quantização de sinais e redes neurais estáticas. Transformadas espectrotemporais. Predição linear de sinais de voz. Reconhecimento de voz: alinhamento temporal dinâmico e modelos ocultos de Markov. Arquiteturas neurais e algoritmos de aprendizagem. Redes neurais profundas.
 
Signal quantization and static neural networks. Time-frequency transforms. Linear prediction of speech signals. Speech recognition: dynamic time warping and hidden Markov models. Neural architectures and learning algorithms. Deep neural networks.
 
 
Programa
As aulas da disciplina consistem em uma parte teórica e uma prática. Na parte teórica, serão combinados alguns conceitos vistos nas disciplinas das linhas de formação em Processamento de Sinais e Sistemas Inteligentes  do curso de Eletrônica e Sistemas. Além disso, serão introduzidos conceitos novos de Processamento de Voz e de Aprendizagem de Máquina com ênfase nas aplicações. Na parte prática, os alunos resolverão exercícios computacionais utilizando um programa de simulação numérica (por exemplo, Matlab, Scilab, Octaveetc).
1. Introdução 1.1. Quantizadores ótimos, quantização vetorial, algoritmo de Linde-Buzo-Gray (LBG). 2. Mapas auto-organizáveis3. A transformada de Fourier de curto prazo (STFT). 4. Predição linear 4.1. Modelo linear de produção da voz e o espectro de curto prazo. 4.2. Predição do sinal de voz. 5. Reconhecimento de Voz: Fundamentos de Reconhecimento de Padrões. 5.1. Alinhamento Temporal Dinâmico (Dynamic Time Warping- DTW).   5.2 Modelos ocultos de Markov (HMM). 6. Arquiteturas Neurais e Algoritmos de Aprendizado. 6.1 Redes neurais profundas (DNN).
 
The classes of this course consist of a theoretical part and a practical part. In the theoretical part, we will review some concepts seen in the courses of Signal Processing and Intelligent Systems of Electronics and Systems Course. We will also introduce some new concepts about Speech Processing and Machine Learning with emphasis on applications. In the practical part, the students will solve computational problems using a numerical simulation program (for example, Matlab, Scilab, Octave etc.). 1. Introduction 1.1. Optimum quantizers, vector quantization, Linde-Buzo-Gray (LBG) algortihm. 2. Self-organizing maps 3. The short-time Fourier transform (STFT). 4. Linear prediction 4.1. The linear model of speech production and the short-term spectrum. 4.2. Speech signal prediction. 5. Speech recognition: Foundations of pattern recognition. 5.1. Dynamic Time Warping (DTW). 5.2 Hidden Markov models (HMM). 6. Neural architectures and learning algorithms. 6.1 Deep neural networks (DNN).
 
 
Avaliação
     
Método
Exercícios de aplicação, testes e provas
Critério
Média ponderada de exercícios, testes e provas.
Norma de Recuperação
Uma prova.
 
Bibliografia
     
[1] N. S. JAYANT, P. NOLL, Digital coding of waveforms. Englewood Cliffs: Prentice-Hall, 1984. 
[2] W. C. CHU, Foundation and evolution of standardized coders. New York: John Wiley & Sons, 2003. 
[3] A. M. KONDOZ, Digital Speech: Coding for low rate communication systems. New York: John Wiley & Sons, 2004. 
[4] M. ARJONA RAMÍREZ, M. MINAMI, Low bit rate speech coding. In: J. G. PROAKIS (Ed.) Wiley Encyclopedia of Telecommunications. New York: Wiley, 2003, v. 3, p. 1299-1308. 
[5] M. ARJONA RAMÍREZ, M. MINAMI, Technology and Standards for Low-Bit-Rate Vocoding Methods. In: H. BIDGOLI (Ed.) The Handbook of Computer Networks. New York: Wiley, 2008, v. 2, p. 447-467. 
[6] TOKUNBO OGUNFUNMI, MADIHALLY (SIM) NARASIMHA., Principles of Speech Coding: CRC Press, 2010. 
[7] NICOLAS MOREAU, Tools for Signal Compression: Applications to Speech and Audio Coding. Wiley-ISTE, 2011. 
[8] T. P. BARNWELL III, K. NAYEBI, C. H. RICHARDSON, Speech coding: A computer laboratory textbook. New York: John Wiley & Sons, 1995. 
[9] S. FURUI, Digital speech processing, synthesis, and recognition. New York: Marcel Dekker, 1985. 
[10] L. R. RABINER, R. W. SCHAFER, Theory and Applications of Digital Speech Processing. Upper Saddle River: Pearson Higher Education, 2010. 
[11] L. R. RABINER, R. W. SCHAFER, Digital processing of speech signals. Englewood Cliffs: Prentice-Hall, 1978.
[12] L. R. RABINER, B. H. JUANG, Fundamentals of speech recognition. Englewood Cliffs: Prentice-Hall, 1993.
[13] J. R. DELLER, J. G. PROAKIS, J. H. L. HANSEN, Discrete-time processing of speech signals. Englewood Cliffs: Prentice-Hall, 1993.
[14] E. R. BINGHAM, S. KASKI, J. LAAKSONEN. J. LAMPINEN, Advances in independent component analysis and learning machines. Amsterdam: Elsevier Academic Press, 2015.
[15] D. BARBER, Bayesian reasoning and machine  learning. Cambridge: Cambridge University Press, 2012.
 

Clique para consultar os requisitos para PSI3501

Clique para consultar o oferecimento para PSI3501

Créditos | Fale conosco
© 1999 - 2024 - Superintendência de Tecnologia da Informação/USP