O estudo de algoritmos e estruturas de dados que proveem armazenamento e recuperação de informação, com processamento eficiente de grandes volumes de dados não estruturados como textos em linguagem natural. É de particular interesse a elaboração de máquinas de busca em coleções de documentos ou bibliotecas digitais.
Estudar como pré-processar eficientemente uma coleção de livros de uma biblioteca digital (ou documentos de um escritório, ou uma coleção de páginas html) e realizar uma sucessão de consultas que listem quase instantaneamente quais livros (ou documentos, ou páginas) tratam dos assuntos solicitados pelos usuários.
Indexação de coleção de documentos para busca booleana; sistema de indexação para busca aproximada; indexação distribuída; compressão de índices; ordenação de resultados por relevância; classificação de texto; questões de privacidade.
Bibliografia básica: Introduction to Information Retrieval. C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2008. Web Information Retrieval. Ceri, Stefano; Bozzon, Alessandro; Brambilla, Marco; Della Valle, Emanuele; Fraternali, Piero; Quarteroni, Silvia Carey, Michael J (Editor); Ceri, Stefano (Editor). Data-Centric Systems and Applications. Berlin, Heidelberg: Springer Berlin Heidelberg 2013. Modern Information Retrieval. R. Baeza-Yates, B. Ribeiro-Neto. Addison-Wesley, 1999. Bibliografia complementar: Managing Gigabytes. I.H. Witten, A. Moffat, T.C. Bell. Morgan Kaufmann, 1999. Information Retrieval: Algorithms and Heuristics. D.A. Grossman, O. Frieder. Springer, 2004. TREC: Experiment and Evaluation in Information Retrieval. E.M. Voorhees, D.K. Harman. MIT Press, 2005. Language Modeling for Information Retrieval. W.B. Croft, J. Lafferty. Springer, 2003. Tópicos Sobre Análise de Seqüências, A. P. do Lago e I. Simon, IMPA, 2003.