Disciplina Discipline PCS5787
Tópicos Especiais em Ciência dos Dados e Big Data

Special Topics in Data Science and Big Data

Área de Concentração: 3141

Concentration area: 3141

Criação: 01/07/2022

Creation: 01/07/2022

Ativação: 01/07/2022

Activation: 01/07/2022

Nr. de Créditos: 8

Credits: 8

Carga Horária:

Workload:

Teórica

(por semana)

Theory

(weekly)

Prática

(por semana)

Practice

(weekly)

Estudos

(por semana)

Study

(weekly)

Duração Duration Total Total
7 2 3 10 semanas 10 weeks 120 horas 120 hours

Docentes Responsáveis:

Professors:

Jorge Rady de Almeida Junior

Pedro Luiz Pizzigatti Corrêa

Solange Nice Alves de Souza

Objetivos:

Apresentar tópicos relacionados a estudos para descoberta de conhecimento e predição em conjunto de dados, abordando a multidisciplinariedade do tema. Contextualizar e desenvolver a temática de Ciência dos Dados aplicando metodologias para tratar com grandes banco de dados (Big Data), análise de dados multidimensional, processamento e visualização de dados espaço-temporal.

Objectives:

Present topics related to studies for knowledge discovery and dataset prediction, addressing the multidisciplinary of the area. Contextualize and develop the Data Science subject by applying methodologies to deal with large databases (Big Data), multidimensional data analysis, processing and visualization of spatiotemporal data.

Justificativa:

Nos últimos anos a ciência tem se deparado com uma enorme quantidade de dados provenientes das mais diversas fontes como, por exemplo, da Internet, das mídias sociais e dos dispositivos de coleta de dados. O cenário formado por amplos conjuntos de dados em larga escala, normalmente gerados e consumidos em tempo real e ́dito como um “dilúvio de dados” (em inglês, Data Deluge). O termo Big Data tem sido utilizado para representar esta metáfora. As principais dimensões que classificam um conjunto de dados como Big data: o volume dos dados que um sistema recebe, processa e/ou dissemina; a variedade, que é o número e a complexidade dos tipos de dados manipulados; e o tempo de resposta com o qual os dados são criados e/ou disponibilizados para outros usos. A procura pela descoberta de conhecimento em bases de dados tem guiado empresas e pesquisadores na busca por soluções que permitam analisar e transformar grandes volumes de dados em informações. Contudo, a variedade de disciplinas envolvidas na temática exige um currículo diferenciado dos agentes envolvidos na análise de dados. Como exemplo, as técnicas básicas abordadas em Ciência dos Dados, incluem conhecimentos em banco de dados relacional e não relacional, soluções para gerenciar grande volume de dados, modelos estatísticos, mineração de dados e aprendizagem de máquina. Assim a disciplina Ciência dos Dados tem por objetivo abordar a gestão de dados em grandes volumes ou complexos nos quais as aplicações convencionais são inadequadas, voltado para: captura, curadoria de dados, compartilhamento, armazenamento, interoperabilidade, visualização, análise e política e gestão de dados. As aplicações de Big Data consideraras na disciplina são principalmente voltadas para gestão de dados científicos que viabilizam a nova ciência direcionada no uso e reuso intensivo de dados.

Rationale:

In recent years, science has come across a huge amount of data from the most diverse sources, such as the Internet, social media and data collection devices. The scenario formed by large sets of large-scale data, usually generated and consumed in real time, is referred to as a “data deluge”. The term Big Data has been used to represent this metaphor. The main dimensions that classify a dataset as Big Data: the volume of data that a system receives, processes and/or disseminates; variety, which is the number and complexity of the types of data handled; and the response time with which the data is created and/or made available for other uses. The search for knowledge discovery in databases has guided companies and researchers in the search for solutions that allow them to analyze and transform large volumes of data into information. However, the variety of disciplines involved in the theme requires a different curriculum from the agents involved in data analysis. As an example, the basic techniques covered in Data Science include knowledge in relational and non-relational databases, solutions to manage large volumes of data, statistical models, data mining and machine learning. Thus, the Data Science discipline aims to address data management in large or complex volumes in which conventional applications are inadequate, focused on: data capture, curation, sharing, storage, interoperability, visualization, analysis and policy and management of data. The Big Data applications considered in the discipline are mainly focused on scientific data management that enable the new science drive at the intensive use and reuse of data.

Conteúdo:

Programa Resumido: - Introdução e histórico de Ciência dos Dados e modelos de gestão de dados. Técnicas para definição e seleção de amostragens. Avaliação de Modelos computacionais. Escalabilidade e manipulação de grandes volumes de dados, banco de dados relacional e não relacional. Análise de dados com métodos estatísticos, análise de dados com técnicas de aprendizado de máquina. Conceitos e métodos para a gestão de dados de Big Data, para aquisição, integração, curadoria visualização e apresentação de dados multidimensionais e espaço- temporais. Programa Analítico: - Introdução: Histórico e contexto de Ciência dos Dados. Domínio de aplicação, áreas de abrangência e aplicações voltados para a Ciência dos Dados. - Seleção e definição de amostras: técnicas estatísticas aplicadas à seleção e definição de dados a serem aplicados em experimentos computacionais. - Avaliação de modelos computacionais: aplicação de técnicas de regressão linear e não linear para avaliação de modelos computacionais gerados. - Modelos de gestão de dados: ciclo de vida dos dados. Ferramentas aplicadas para a gestão de dados científicos. - Escalabilidade e manipulação de dados: Estrutura de dados, banco de dados relacional e algébrico. Modelagem de dados. Manipulação de massa de dados usando map-reduce, hadoop, spark, relações, algoritmos e extensões. Banco de dados não relacionais (noSQL). - Análise de dados: Introdução e contexto de análise de dados estatístico, conceitos e experimentação de modelos estatísticos. Ferramentas, aplicações e linguagem de programação Python, voltadas para análise de dados estatística. Conceitos e experimentação para análise de dados em aprendizado de máquinas. Aprendizado supervisionado e não supervisionado, ferramentas, aplicações voltadas para aprendizado de máquinas. - Visualização de Resultados: Conceitos e métodos de visualização de resultados analíticos. Metodologia para visualização de dados multidimensionais. Métodos, conceitos e técnicas de visualização de dados espaço-temporais. Ferramentas e algoritmos em Python para apresentação de dados multidimensionais e espaço- temporais. - Tendências e temas de pesquisa na área: Análise de dados voltada para identificação de padrões. Análise de comportamento em séries temporais por meio de análise de trajetórias. Infraestrutura computacional elástica para análise de dados. Estratégias para catalogação e publicação de conjuntos de dados abertos. Proveniência de dados abertos. Qualidade de dados. Gestão e padrões de metadados.

Content:

Summary Program: - Introduction and background of Data Science and data management models. Techniques for defining and selecting samples. Evaluation of Computational Models. Scalability and handling of large volumes of data, relational and non-relational database. Data analysis with statistical methods, data analysis with machine learning techniques. Concepts and methods for managing big data, for acquisition, integration, curation, visualization, and presentation of multidimensional and spatiotemporal data. Analytical Program: - Introduction: History and context of Data Science. Domain of application, coverage areas and applications focused on Data Science. - Selection and definition of samples: statistical techniques applied to the selection and definition of data to be applied in computational experiments. - Evaluation of computational models: application of linear and non-linear regression techniques to evaluate the generated computational models. - Data management models: data lifecycle. Tools applied to scientific data management. - Scalability and data manipulation: Data structure, relational and algebraic database. Data Modeling. Mass data manipulation using map-reduce, hadoop, spark, relations, algorithms and extensions. Non-relational database (noSQL). - Data analysis: Introduction and context of statistical data analysis, concepts and experimentation with statistical models. Python tools, applications and programming language, aimed at statistical data analysis. Concepts and experimentation for data analysis in machine learning. Supervised and unsupervised learning, tools, machine learning applications. - Data Visualization: Concepts and methods of visualization of analytical results. Methodology for visualizing multidimensional data. Spatiotemporal data visualization methods, concepts, and techniques. Python tools and algorithms for presenting multidimensional and spatiotemporal data. - Trends and research topics in the area: Data analysis aimed at identifying patterns. Behavior analysis in time series through trajectory analysis. Elastic computational infrastructure for data analysis. Strategies for cataloging and publishing open datasets. Provenance of open data. Data quality. Metadata management and standards.

Forma de Avaliação:

Listas de exercícios e entrega e apresentação de artigo referente ao desenvolvimento de um projeto durante a disciplina.

Type of Assessment:

Lists of exercises and delivery and presentation of an article referring to the development of a project during the course.

Bibliografia:

ANDERSON, T.W. The statistical analysis of time series. New York: John Wiley & Sons, 2011. BERTHOLD, M.R. From patterns to discoveries. Berlin: Springer, 2012. CROSAS, M., KING, G., HONAKER, J., AND SWEENEY, L. (2014). Automating Open Science for Big Data. ANNALS of the American Academy of Political and Social Science, (May):1–20. DEVARAKONDA, R., PALANISAMY, G., WILSON, B. E., AND GREEN, J. M. (2010). Mercury: Reusable metadata management, data discovery and access system. Earth Science Informatics, 3(1):87–94. HARDISTY, A., ROBERTS, D., ADDINK, W., AND AELTERMAN, BART, E. A. (2013). A decadal view of biodiversity informatics: challenges and priorities. BMC ecology, 13(1):16. KELLEHER, J,D., TIERNEY, B. Data Science. MIT Press, 2018. KLEPPMANN, M. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastabol (CA): O’Reilly Media. 2017 MATTMANN, C. A. (2013). Computing: A vision for data science. Nature, 493(7433):473– 475. RAJ, J. The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. Wiley, ISBN: 0-471-50336-3. 1991, WITTEN, I. H. AND FRANK, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. YANG, C., RASKIN, R., GOODCHILD, M. F., AND GAHEGAN, M. (2010). Geospatial cyberinfrastructure: Past, present and future. Computers, Environment and Urban Systems, 34(4):264–277.

Bibliography:

ANDERSON, T.W. The statistical analysis of time series. New York: John Wiley & Sons, 2011. BERTHOLD, M.R. From patterns to discoveries. Berlin: Springer, 2012. CROSAS, M., KING, G., HONAKER, J., AND SWEENEY, L. (2014). Automating Open Science for Big Data. ANNALS of the American Academy of Political and Social Science, (May):1–20. DEVARAKONDA, R., PALANISAMY, G., WILSON, B. E., AND GREEN, J. M. (2010). Mercury: Reusable metadata management, data discovery and access system. Earth Science Informatics, 3(1):87–94. HARDISTY, A., ROBERTS, D., ADDINK, W., AND AELTERMAN, BART, E. A. (2013). A decadal view of biodiversity informatics: challenges and priorities. BMC ecology, 13(1):16. KELLEHER, J,D., TIERNEY, B. Data Science. MIT Press, 2018. KLEPPMANN, M. Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastabol (CA): O’Reilly Media. 2017 MATTMANN, C. A. (2013). Computing: A vision for data science. Nature, 493(7433):473– 475. RAJ, J. The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. Wiley, ISBN: 0-471-50336-3. 1991, WITTEN, I. H. AND FRANK, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. YANG, C., RASKIN, R., GOODCHILD, M. F., AND GAHEGAN, M. (2010). Geospatial cyberinfrastructure: Past, present and future. Computers, Environment and Urban Systems, 34(4):264–277.

Tipo de oferecimento da disciplina:

Não-Presencial

Class type:

Não-Presencial