Capacitar o estudante a aplicar conceitos, metodologias, técnicas e ferramentas para o processamento, a representação e a classificação da informação textual.
Conceitos gerais de repositório de dados ou informações. Representação de documentos textuais: bag-of-words, contagens, TF-IDF, N-grams, representação distribuída de palavras. Estruturas de um arquivo invertido. Avaliação de sistemas de recuperação de informação: coleções de referência, julgamento de relevância, medidas de avaliação. Processamento básico de texto: expressão regular, tokenização de palavras (normalização textual, stemming, case folding, lematização, morfologia, segmentação de sentenças. Classificação/indexação automática: árvore de decisão e outros classificadores.
Apresentação do plano da disciplina Avaliação diagnóstica Apresentação de conceitos gerais sobre repositório de dados e informações. Apresentação de estruturas, técnicas e métodos de representação de documentos textuais: bag-of-words, contagens, TF-IDF, N-grams, representação distribuída de palavras. Estruturas de um arquivo invertido. Apresentação de conceitos de recuperação de informação. Apresentação de conceitos gerais sobre processamento de texto: expressão regular, tokenização de palavras (normalização textual, stemming, case folding, lematização, morfologia, segmentação de sentenças. Apresentação de técnicas e métodos de indexação, categorização e classificação. Realização de prática de representação de repositório ou coleções. Realização de prática de representação de documentos ou informações textuais. Realização de prática de processamento textual. Realização de prática de indexação, categorização ou classificação.
1. Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. Addison Wesley; 1st edition, 1999. 2. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit, O'Reilly Media, 2009. 3. Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, William Hersh. Medical Informatics: Knowledge Management and Data Mining in Biomedicine, Springer; 1 edition, 2005. 4. Brownlee, Jason. Deep Learning for Natural Language Processing: Develop Deep Learning Models for your Natural Language Problems. Machine Learning Mastery. ebook. 2017