Disciplina Discipline 5955017
Processamento e Recuperação de Informação Textual para Computação Aplicada

Text Processing and Information Retrieval for Applied Computing

Área de Concentração: 59143

Concentration area: 59143

Criação: 03/09/2020

Creation: 03/09/2020

Ativação: 03/02/2021

Activation: 03/02/2021

Nr. de Créditos: 8

Credits: 8

Carga Horária:

Workload:

Teórica

(por semana)

Theory

(weekly)

Prática

(por semana)

Practice

(weekly)

Estudos

(por semana)

Study

(weekly)

Duração Duration Total Total
4 0 6 12 semanas 12 weeks 120 horas 120 hours

Docentes Responsáveis:

Professors:

Evandro Eduardo Seron Ruiz

Alessandra Alaniz Macedo

Objetivos:

Capacitar o estudante a utilizar metodologias, técnicas e ferramentas para o processamento e a recuperação da informação textual. Apresentar e discutir metodologias e técnicas de processamento de textos aplicadas por meio da leitura e discussão de artigos científicos.

Objectives:

Qualify students to understand and use methodologies, techniques, and tools for natural language text processing (NLP) and information retrieval (IR). Methodologies and techniques devoted to academic and practical aspects of NLP and IR will be introduced through reading and discussing scientific published articles.

Justificativa:

Pesquisas em computação aplicada têm acumulado, com o passar dos anos, uma grande quantidade de informação textual em formato digital mesclado com dados. As informações textuais, semi-estruturadas, estruturadas ou não e armazenadas em arquivos ou em banco de dados, incluem também artigos científicos, relatórios técnicos e diferentes outros tipos de documentos resultantes de pesquisas e descobertas na área. Existe um forte interesse de pesquisadores tanto da área de computação como de outras áreas em descobrir, recuperar e gerar novos conhecimentos a partir das informações textuais de documentos.

Rationale:

Academic research, like other areas, has been accumulating a large amount of textual information throughout the last decade. Textual information, data, and knowledge can be acquired from structured data, semi-structured data, and free text stored in large databases if convenient information retrieval and text processing tasks are applied. Nowadays, information is easily accessible from a diversity of digital means and media. Scientific literature, books, newspapers, chat spaces, experimental laboratory data, public data, surveillance data, and many other resources are rapidly acquired. Still, we need a lot of knowledge to understand it and, most importantly, generate knowledge or even insights from the prospective relationship among many of these information sources. The Information Retrieval research field helps us locate this information while NLP enables computers to derive meaning from textual data.

Conteúdo:

- Conceitos fundamentais de recuperação de informação: ● Índices, ● Modelos, ● Consultas, ● Avaliação, e ● Coleções. - Conceitos fundamentais de processamento de linguagem natural ● Métodos de classificação e métodos de clustering; ● Criação de dicionários, ● Análise semântica, e ● Relacionamento a partir de informação.

Content:

- Introduction to Retrieval Fundamentals: index, models, queries, evaluation, and collections; - Natural Language Text Processing Fundamentals: word, n-grams, sentence, corpora, morphologic tagging, parsing, and semantics. - Text Classification and clustering

Forma de Avaliação:

Vide Campo Observação.

Type of Assessment:

See Observation Field

Observação:

Forma de avaliação: A avaliação final será composta pela média ponderada de duas atividades, que serão: 1) Um trabalho final sobre um tema vinculado aos tópicos da disciplina que deverá ser seguido de um seminário explanatório, e; 2) Uma prova escrita final versando sobre os temas abordados em aula. A composição final do conceito ocorrerá pela média aritmética das notas obtidas nas duas avaliações.

Notes/Remarks:

Assessment method: The definitive assessment will consist of the weighted average of two activities, which will be: 1) A final work on a topic linked to the issues of the discipline that should be followed by an explanatory seminar, and; 2) A final written exam covering the topics covered in class. The final composition of the concept will occur by the arithmetic average of the marks obtained in the two evaluations.

Bibliografia:

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. MODERN INFORMATION RETRIEVAL. Addison Wesley; 1st edition, 1999. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit, O'Reilly Media, 2009. Manning, Christopher, and Hinrich Schutze. Foundations of statistical natural language processing. MIT Press, 1999. Jurasky, Daniel, and James H. Martin. "Speech and Language Processing: An introduction to natural language processing." Computational Linguistics and Speech Recognition. Prentice Hall, New Jersey (2000). Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, William Hersh. Medical Informatics: Knowledge Management and Data Mining in Biomedicine, Springer; 1 edition, 2005.

Bibliography:

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. MODERN INFORMATION RETRIEVAL. Addison Wesley; 1st edition, 1999. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit, O'Reilly Media, 2009. Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, William Hersh. Medical Informatics: Knowledge Management and Data Mining in Biomedicine, Springer; 1 edition, 2005.

Tipo de oferecimento da disciplina:

Presencial

Class type:

Presencial