Área de Concentração: 3137
Concentration area: 3137
Criação: 14/03/2022
Creation: 14/03/2022
Ativação: 14/03/2022
Activation: 14/03/2022
Nr. de Créditos: 8
Credits: 8
Carga Horária:
Workload:
Teórica (por semana) |
Theory (weekly) |
Prática (por semana) |
Practice (weekly) |
Estudos (por semana) |
Study (weekly) |
Duração | Duration | Total | Total |
---|---|---|---|---|---|---|---|---|---|
3 | 0 | 7 | 12 semanas | 12 weeks | 120 horas | 120 hours |
Docentes Responsáveis:
Professors:
Cláudio Augusto Oller do Nascimento
Roberto Guardani
Rita Maria de Brito Alves
Objetivos:
A disciplina PQI5858 tem como objetivo principal a compreensão das interações entre as diversas variáveis de um processo químico, por meio da interpretação dos resultados da aplicação de técnicas de estatística multivariada/machine learning (ML) aos dados de operação de unidades industriais. O curso foi estruturado, conforme as demandas do mercado, visando extrair informações relevantes a partir de grandes volumes de dados, para a melhoria do desempenho do processo e da qualidade do produto final.
Objectives:
The main objective of the discipline PQI5858 is to allow the students to understand the interactions between the various variables of a chemical process, through the interpretation of the results of the application of multivariate statistics/machine learning (ML) techniques to the operating data of industrial units. The course was structured according to market demands, aiming to extract relevant information from large volumes of data, to improve the performance of the process and the quality of the final product.
Justificativa:
A atual e forte atração mundial de investimentos na área de Inteligência Artificial (IA) tem incentivado a comunidade de Engenharia Química (EQ) a utilizar métodos de Machine Learning (ML) para a análise e interpretação de grandes volumes de dados de processo, os quais vêm se tornando cada vez mais disponíveis por meio do desenvolvimento da Indústria 4.0. Nessa conjuntura, disciplinas relacionadas à Big Data Analytics são altamente rerlevantes na formação de profissionais mais qualificados para o atual mercado de trabalho. A maior parte dos processos químicos é altamente multivariada na natureza devido às relações complexas envolvidas, isto é, há um grande número de variáveis medidas para melhor entendimento do processo. Tais variáveis têm importantes interações que afetam o resultado final (por exemplo, a qualidade do produto final). Essas interações não podem ser detectadas pela estatística univariável tradicional, como por exemplo, através do uso de cartas de controle de processo. Embora métodos estatísticos, univariável possam ser usados para investigar sistemas simples, eles tendem a falhar quando sistemas mais complexos são analisados, uma vez que não são capazes de detectar as relações existentes entre as variáveis já que tratam tais variáveis como independentes uma das outras. Análise multivariada de dados é a análise simultânea de muitas variáveis, a fim de compreender as relações que possam existir entre elas. Essencialmente, é uma ferramenta para obter padrões e relações entre várias variáveis simultaneamente. É possível, através da análise multivariada de dados, predizer o efeito da variação em uma ou mais variáveis terá sobre todas as outras. Análise multivariada de dados usa todos os dados disponíveis para capturar o máximo de informação possível sobre um dado processo, permitindo que se tenha a informação necessária para sua otimização. Métodos de análise multivariada incluem análise de dados exploratória (data mining), classificação (ex, análise de grupos), análise de regressão e modelagem preditiva. Análise exploratória de dados tenta encontrar a estrutura oculta ou padrões subjacentes em grandes conjuntos de dados complexos. Isto permite melhor compreensão do processo e pode levar a descobertas que não foram observados em contrário. Métodos exploratórios de dados incluem a Análise de Grupos (clusters) e Análise de Componentes Principais (PCA). Um exemplo de aplicação da análise exploratória de dados é a verificação de contaminantes em um processo ou matéria-prima, ou identificação de subprodutos causados por ajustes incorretos do processo. A análise de regressão envolve o desenvolvimento de um modelo a partir de dados disponíveis de modo a predizer uma resposta desejada ou respostas para as medições futuras. Métodos de regressão incluem Regressão Linear Múltipla (MLR), Regressão de Componentes Principal (PCR) e Regressão de Mínimos Quadrados Parciais (PLSR). Aplicações comuns incluem predizer pureza, rendimento ou qualidade do produto final a partir da qualidade da matéria-prima. Classificação é a separação (ou de ordenação) de um grupo de objetivos em uma ou mais classes com base em características distintivas dos objetos. Métodos de classificação incluem Análise Discriminante Linear (LDA) e vetores de suporte. Exemplos de aplicação incluem agrupamento de produtos de acordo com características semelhantes ou graus de qualidade. Métodos multivariados são usados hoje nas indústrias químicas, farmacêutica, óleo e gás, refino de petróleo, mineração e metais, papel e celulose, indústrias agrícolas e alimentares, para citar alguns. No entanto, devido à sua natureza sofisticada, a análise multivariada tem sido predominantemente utilizada por cientistas em P&D ou departamentos técnicos. Isso ocorre porque a aplicação destas técnicas requer conhecimento dos métodos mais adequados para diferentes tipos de dados, desenvolvimento de modelos, interpretação de gráficos parcelas etc. Historicamente, essas habilidades não tem sido um foco para engenheiros químicos, que têm a tendência de usar modelos de primeiro princípio. Hoje, no entanto, empresas líderes estão procurando por novas fontes de vantagem competitiva e percebendo que a enorme quantidade de dados coletados durante as suas operações de produção oferece informações úteis para melhorias no desenvolvimento do produto e desempenho do processo. Além disso, as empresas estão sob crescente pressão para melhorar a sustentabilidade dos seus produtos e processos, o que pode ser alcançados com o maior conhecimento oferecido por ferramentas analíticas mais poderosas. A análise multivariada de dados pode ser usada em toda a cadeia de valor da engenharia química, desde o desenvolvimento de produtos, scaIe up ou scale down, engenharia de processos e otimização de processos.
Rationale:
The current strong global attraction of investments in the area of Artificial Intelligence (AI) has encouraged the Chemical Engineering (CE) community to use Machine Learning (ML) methods for the analysis and interpretation of large volumes of process data, which are becoming increasingly available through the development of Industry 4.0. In this context, disciplines related to Big Data Analytics are highly relevant in the training of more qualified professionals for the current job market. Chemical processes are highly multivariate in nature due to the complex relationships involved, i.e., there are a large number of variables measured to better understand the process. Such variables have important interactions that affect the final result (eg, the quality of the final product). These interactions cannot be detected by traditional univariate statistics, for example, through the use of process control charts. Although univariate statistical methods can be used to investigate simple systems, they tend to fail when more complex systems are analyzed, since they are not able to detect the relationships between variables since they treat such variables as independent of each other. Multivariate data analysis is the simultaneous analysis of many variables in order to understand the relationships that may exist between them. Essentially, it is a tool for obtaining patterns and elationships between multiple variables simultaneously. It is possible, through multivariate analysis of data, to predict the effect of variation of one or more variables on each other. Multivariate data analysis uses all available data to capture as much information as possible about a given process, and allows to get the necessary information for its optimization. Multivariate analysis methods include exploratory data analysis (data mining), classification (eg, cluster analysis), regression analysis, and predictive modeling. Exploratory data analysis attempts to find hidden structure or underlying patterns in large, complex datasets. This allows for a better understanding of the process and can lead to findings those not observed otherwise. Exploratory methods include Cluster Analysis and Principal Component Analysis (PCA). An example of an application of exploratory data analysis is checking for contaminants in a process or raw material, or identifying by-products caused by incorrect process adjustments. Regression analysis involves developing a model from available data in order to predict a desired response or responses to future measurements. Regression methods include Multiple Linear Regression (MLR), Principal Component Regression (PCR), and Partial Least Squares Regression (PLSR). Common applications include predicting final product purity, yield or quality from raw material quality. Classification is the separation (or ordering) of a group of goals into one or more classes based on distinctive features of the objects. Classification methods include Linear Discriminant Analysis (LDA) and support vectors. Application examples include grouping products according to similar characteristics or quality grades. Multivariate methods are used today in the chemical, pharmaceutical, oil and gas, petroleum refining, mining and metals, pulp and paper, agricultural and food industries, to name a few. However, due to its sophisticated nature, multivariate analysis has been predominantly used by scientists in R&D or technical departments. This is because the application of these techniques requires knowledge of the most appropriate methods for different types of data, model development, plot interpretation, etc. Historically, these skills have not been a focus for chemical engineers, who tend to use first-principle models. Nowadays, however, leading companies are looking for new sources of competitive advantage and realizing that the massive amount of data collected during their production operations provides useful information for improvements in product development and process performance. In addition, companies are under increasing pressure to improve the sustainability of their products and processes, which can be achieved with the increased knowledge offered by more powerful analytical tools. Multivariate data analysis can be used across the entire chemical engineering value chain, from product development, scale up or scale down, process engineering and process optimization.
Conteúdo:
A ementa cobre muitas das técnicas de machine learning (ML). Vale ressaltar que estatística e ML são campos intimamente relacionados em termos de métodos, sendo o último uma expressão mais atual para o reconhecimento de padrões preditivos generalizáveis. Fundamentos estatísticos na manipulação de dados. Conceitos estatísticos multivariáveis. Introdução a linguagem de programação R Reconciliação de dados Análise multivariável de variança MANOVA Aplicação de estatística multivariável a problemas de processos químicos de modo a explorar grandes quantidades de dados em busca de padrões consistentes, como regras de associação ou sequências temporais, para detectar relações entre variáveis e, então, validá-los. Avaliação de erros grosseiros e sistemáticos. Análise de componentes principais (PCA) – efeito do tipo de dados na análise de PCA; interpretação geométrica do PCA; aplicação de PCA em dados de processos químicos industriais. Análises de fatores - conceitos básicos e terminologia de análise de fatores; interpretação geométrica; interpretação de fatores comuns; análise de fatores versus PCA. Aplicação da análise de fatores em dados de processos químicos industriais. Análise de grupos (clusters) - conceitos básicos, análise hierárquica e não hirárquica; interpretação de clusters; aplicação em dados de processos industriais. Análise de discriminante - conceitos básicos; discriminação e classificação de conjuntos; Metodologia de Fischer em discriminação de grupos; aplicação em dados de processos industriais. Vetores de suporte (Suport Vector Machine) - No aprendizado de máquina, máquinas de vetor de suporte (SVMs, também redes de vetor de suporte [1]) são modelos de aprendizado supervisionado com algoritmos de aprendizado associados que analisam dados para classificação e análise de regressão. Análise de dados ausentes (missing data) - Em estatística, a falha de valores ocorre quando nenhum valor é armazenado para a variável na observação atual. “Missing data” são uma ocorrência comum, e métodos estatísticos têm sido desenvolvidos para lidar com este problema. Aplicação de redes neurais na análise de dados industriais.
Content:
The content covers many of the machine learning (ML) techniques. It is noteworthy that statistics and ML are closely related fields in terms of methods, the latter being a more current expression for recognizing generalizable predictive patterns: Statistical fundamentals in data manipulation. Multivariate statistical concepts. Introduction to the R programming language Data reconciliation and evaluation of gross and systematic errors. MANOVA multivariate analysis of variance Applying multivariate statistics to chemical process problems in order to explore large amounts of data for searching consistent patterns, such as association rules or temporal sequences, to detect relationships between variables and then validate them. Principal component analysis (PCA) – effect of data type on PCA analysis; geometric interpretation of PCA; application of PCA in industrial chemical process data. Factor analysis - basic concepts and terminology of factor analysis; geometric interpretation; interpretation of common factors; factor analysis versus PCA. Application of factor analysis in industrial chemical process data. Analysis of groups (clusters) - basic concepts, hierarchical and non-hierarchica l analysis; cluster interpretation; application in industrial process data. Discriminant analysis - basic concepts; discrimination and classification of sets; Fischer's methodology in group discrimination; application in industrial process data. Support Vector Machine - In machine learning, support vector machines (SVMs, also support vector networks [1]) are supervised learning models with associated learning algorithms that analyze data for classification and analysis of regression
Forma de Avaliação:
A avaliação do curso é realizada ao longo do curso através de uma série de atividades práticas de aplicação das técnicas estudadas a um estudo de caso com dados industriais. Ao final do curso, os alunos apresentam seus resultados, o que gera discussões e maior envolvimento dos alunos.
Type of Assessment:
The evaluation is carried out throughout the course through a series of practical activities applying the techniques studied to a case study with industrial data. At the end of the course, students present their results, which generates discussions and greater student involvement.
Bibliografia:
Schweidtmann, Artur M.; Esche, Erik; Fischer, Asja; Kloft, Marius; Repke, Jens-Uwe; Sager, Sebastian; Mitsos, Alexander. “Machine Learning in Chemical Engineering: A Perspective”, Chemie Ingenieur Technik, v 93 (12), pp 2020-2039, 2021 Lantz, Brett. “Machine Learning with R” - Expert techniques for predictive modelling, Packt Publishing, 3rd Ed., 2019 Spencer, Neil H. "Essentials of Multivariate Data Analysis". CRC Press/Taylor & Francis Group, 2013 Osborne, Jason W. "Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data", SAGE Publications, Inc, 2012. Raykov, T.; Marcoulides, G.A., “An Introduction to Applied Multivariate Analysis”, Taylor and Francis Group, LLC, 2008. Han, J.; Kamber, Micheline, “Data Mning Conceptis and Techniques”. Elsevier Inc., 2nd ed., 2006. Little, R. J. A.; Rubin, D. B., “Statistical Analysis with Missing Data”, 2nd ed., Willey-Interscience (John Willey & Sons, Inc), 2nd ed., 2002. Berthaouex, P. M.; Brawn, L. C., "Statistics for Environmental Engineers", Lewis Publishers 2nd ed., 2002. Johnson, R. A.; Wichern, D. W., "Applied Multivariate Statistical Analysis", Prentice Hall, New Jersey, 2002. Romagnoli, J. A.; Sánchez, M. C., “Data Processing and Reconciliation for Chemical Process Operations”, Academic Press, 2000. Narasimhan, S.; Jordache, C., “Data Reconciliation and Gross Error Detection: An Intelligent Use of Process Data”, Gulf Professional Publishing, 2000. Khattree, R; Naik, D.N., "Multivariate Data Reduction and Discrimination - with SAS software, SAS Institute Corporation, John Wiley & Sons, New York, 2000. Haykin, S., "Neural Networks", 2nd Edition, Prentice Hall, 1999. Hair Jr, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C.; "Multivariate Data Analysis", 5th Edition, Prentice Hall, New Jersey, 1998. Sharma, S., "Applied Multivariate Techniques", John Wiley & Sons, New York, 1996.
Bibliography:
Schweidtmann, Artur M.; Esche, Erik; Fischer, Asja; Kloft, Marius; Repke, Jens-Uwe; Sager, Sebastian; Mitsos, Alexander. “Machine Learning in Chemical Engineering: A Perspective”, Chemie Ingenieur Technik, v 93 (12), pp 2020-2039, 2021 Lantz, Brett. “Machine Learning with R” - Expert techniques for predictive modelling, Packt Publishing, 3rd Ed., 2019 Spencer, Neil H. "Essentials of Multivariate Data Analysis". CRC Press/Taylor & Francis Group, 2013 Osborne, Jason W. "Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data", SAGE Publications, Inc, 2012. Raykov, T.; Marcoulides, G.A., “An Introduction to Applied Multivariate Analysis”, Taylor and Francis Group, LLC, 2008. Han, J.; Kamber, Micheline, “Data Mning Conceptis and Techniques”. Elsevier Inc., 2nd ed., 2006. Little, R. J. A.; Rubin, D. B., “Statistical Analysis with Missing Data”, 2nd ed., Willey-Interscience (John Willey & Sons, Inc), 2nd ed., 2002. Berthaouex, P. M.; Brawn, L. C., "Statistics for Environmental Engineers", Lewis Publishers 2nd ed., 2002. Johnson, R. A.; Wichern, D. W., "Applied Multivariate Statistical Analysis", Prentice Hall, New Jersey, 2002. Romagnoli, J. A.; Sánchez, M. C., “Data Processing and Reconciliation for Chemical Process Operations”, Academic Press, 2000. Narasimhan, S.; Jordache, C., “Data Reconciliation and Gross Error Detection: An Intelligent Use of Process Data”, Gulf Professional Publishing, 2000. Khattree, R; Naik, D.N., "Multivariate Data Reduction and Discrimination - with SAS software, SAS Institute Corporation, John Wiley & Sons, New York, 2000. Haykin, S., "Neural Networks", 2nd Edition, Prentice Hall, 1999. Hair Jr, J. F.; Anderson, R. E.; Tatham, R. L.; Black, W. C.; "Multivariate Data Analysis", 5th Edition, Prentice Hall, New Jersey, 1998. Sharma, S., "Applied Multivariate Techniques", John Wiley & Sons, New York, 1996.
Idiomas ministrados:
Languages taught:
Tipo de oferecimento da disciplina:
Presencial
Class type:
Presencial