Ao final da disciplina o aluno deverá saber os fundamentos e as técnicas para manipulação, análise, representação, validação e processamento de grandes volumes de dados.
Importância da área e de suas aplicações. Processo de descoberta do conhecimento. Tratamento, representação e qualificação de grande volumes de dados. Armazém de dados e modelos multidimensionais. Noções de Redes de Petri e Álgebra de Processos. Modelagem e implementação de workflows científicos e processos de negócio. Indexação e recuperação de grandes volumes de dados. Análise exploratória de dados. Redes complexas e bancos de dados orientado a grafos. Exercícios com utilização de dados simulados e reais.
Importância da área e de suas aplicações. Processo de descoberta do conhecimento (KDD). Tratamento, representação e qualificação de grande volumes de dados. Armazém de dados e modelos multidimensionais. Noções de Redes de Petri e Álgebra de Processos. Modelagem e implementação de workflows científicos e processos de negócio. Indexação e recuperação de grandes volumes de dados. Análise exploratória de dados. Redes complexas e bancos de dados orientado a grafos. Exercícios com utilização de dados simulados e reais.
Bibliografia Básica: Skiena, S., The Data Science Design Manual (versão online aberta) Notas de Aula do Professor. Bibliografia Complementar: W. H. Inmon, Building the Data Warehouse, Wiley, 2005. M. Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, Wiley-Interscience, 2003. R. Kimball, Data Warehouse Toolkit, Makron Books, 1997. R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval: The Concepts and Technology behind Search, 2nd ed., ACM Press Books, 2011. W. Fokkink, Introduction to Process Algebra, Springer, 2000. W. van der Aalst, C. Stahl, Modeling Business Processes: A Petri Net- Oriented Approach, The MIT Press, 2011. W. van der Aalst, K. van Hees, Workflow Management: Models, Methods, and Systems, The MIT Press, 2004. I.J. Taylor, E. Deelman, D.B. Gannon, M. Shields (Eds.), Workflows for e- Science: Scientific Workflows for Grids, Springer, 2006. P.-N. Tan, M. Steinbach, V. Kumar, Introdu¸ão ao Data Mining. Ciência Moderna, 2009. S. Dominich, The Modern Algebra of Information Retrieval (The Information Retrieval Series), Springer, 2010. C.D. Manning, P. Raghavan, H. Schütze, An Introduction to Information Retrieval, Online edition, Cambridge, 2009. I. Robinson, J. Webber, E. Eifrem, Graph Databases, O’Reilly Media, 2013. Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman. Stanford University, 2010.