Disciplina Discipline 5955017
Processamento e Recuperação de Informação Textual para Computação Aplicada

Text Processing and Information Retrieval for Applied Computing

Área de Concentração: 59143

Concentration area: 59143

Criação: 01/10/2015

Creation: 01/10/2015

Ativação: 02/12/2015

Activation: 02/12/2015

Nr. de Créditos: 8

Credits: 8

Carga Horária:

Workload:

Teórica

(por semana)

Theory

(weekly)

Prática

(por semana)

Practice

(weekly)

Estudos

(por semana)

Study

(weekly)

Duração Duration Total Total
4 0 6 12 semanas 12 weeks 120 horas 120 hours

Docentes Responsáveis:

Professors:

Evandro Eduardo Seron Ruiz

Alessandra Alaniz Macedo

Objetivos:

Capacitar o estudante a utilizar metodologias, técnicas e ferramentas para o processamento e a recuperação da informação textual. Apresentar e discutir metodologias e técnicas de processamento de textos aplicadas através da leitura e discussão de artigos científicos.

Objectives:

Qualify students to understand and use methodologies, techniques and tools for natural language text processing (NLP) and information retrieval (IR). Methodologies and techniques devoted to academic and practical aspects of NLP and IR will be introduced through reading and discussing scientific published articles.

Justificativa:

Pesquisas em computação aplicada têm acumulado, com o passar dos anos, uma grande quantidade de informação textual em formato digital mesclado com dados. As informações textuais, semi-estruturadas, estruturadas ou não e armazenadas em arquivos ou em banco de dados, incluem também artigos científicos, relatórios técnicos e diferentes outros tipos de documentos resultantes de pesquisas e descobertas na área. Existe um forte interesse de pesquisadores tanto da área de computação como de outras áreas em descobrir, recuperar e gerar novos conhecimentos a partir das informações textuais de documentos.

Rationale:

Academic research, as other areas, have been accumulating a large amount of textual information throughout the last decade. Textual information, data and knowledge can be acquired from structured data, semi-structured data and as free text which are stored in large databanks if convenient information retrieval and text processing tasks are applied. Nowadays information is can be easily accessible from a diversity of digital means and medias. Scientific literature, books, newspapers, chat spaces, experimental laboratory data, public data, surveillance data and many other resources are on a click distance to be acquired but needs a lot of knowledge understand it and, most important, to generate knowledge from the prospective relationship among many of these information sources. The Information Retrieval research field help us to locate this information while NLP enables computers to derive meaning from textual information.

Conteúdo:

- conceitos fundamentais de recuperação de informação: índices, modelos, consultas, avaliação e coleções - conceitos fundamentais de processamento de linguagem natural - métodos de classificação e métodos de clustering; - criação de dicionários, - análise semântica - relacionamento a partir de informação

Content:

- Introduction to Retrieval Fundamentals: index, models, queries, evaluation and collections; - Natural Language Text Processing Fundamentals: word, n-grams, sentence, corpora, morphologic tagging, parsing and semantics. - Text Classification and clustering

Forma de Avaliação:

Vide Campo Observação

Observação:

Forma de avaliação: Serão atribuídas notas a exercícios, seminários e/ou trabalhos práticos e provas. A nota final será calculada pela média ponderada dessas várias notas obtidas pelo aluno no decorrer do semestre.

Notes/Remarks:

Written tests, seminars and practical lab tasks. The final grade will be calculated by the weighted average of the tests, seminars and practical tasks.

Bibliografia:

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. MODERN INFORMATION RETRIEVAL. Addison Wesley; 1st edition, 1999. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit, O'Reilly Media, 2009. Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, William Hersh. Medical Informatics: Knowledge Management and Data Mining in Biomedicine, Springer; 1 edition, 2005.

Bibliography:

Ricardo Baeza-Yates, Berthier Ribeiro-Neto. MODERN INFORMATION RETRIEVAL. Addison Wesley; 1st edition, 1999. Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python– Analyzing Text with the Natural Language Toolkit, O'Reilly Media, 2009. Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, William Hersh. Medical Informatics: Knowledge Management and Data Mining in Biomedicine, Springer; 1 edition, 2005.