111151 - MÓDULO - MODELOS SUPERVISIONADOS E NÃO SUPERVISIONADOS DE MACHINE LEARNING |
Período da turma: | 28/05/2024 a 29/10/2024
|
||||
|
|||||
Descrição: | Unsupervised Machine Learning: Clustering
Análise de conglomerados e de agrupamentos; padronização de variáveis e procedimento z-scores; medidas de distância e de similaridade; clusters hierárquicos; clusters não hierárquicos k-means; esquemas de aglomeração; dendrograma; escalonamento multidimensional; aplicações de bancos de dados reais de mercado em R. Unsupervised Machine Learning: Análise Fatorial e PCA Análise fatorial; principal componente analysis (PCA); construção de fatores; matriz de correlações; escores e cargas fatoriais; mapa de cargas; criação de rankings em datasets; aplicações de bancos de dados reais de mercado em R. Unsupervised Machine Learning: Análise de Correspondência Simples e Múltipla Tabelas de frequência; massas de frequências; resíduos frequentistas; teste chi-quadrado; associação entre variáveis e entre categorias; coordenadas de categorias e mapas perceptuais; clusterização e rankings de observações a partir de variáveis qualitativas; aplicações de bancos de dados reais de mercado em R. Unsupervised Machine Learning: Exercícios Aplicados Exercícios complementares de técnicas não supervisionadas de machine learning. Supervised Machine Learning: Análise de Regressão Simples e Múltipla Mapa de correlações; modelos de regressão simples; estimação por mínimos quadrados; coeficiente de ajuste R²; teste F, testes t, modelos de regressão múltipla; procedimento Stepwise; multicolinearidade; teste de Shapiro-Francia; procedimento de Box-Cox; modelos não lineares; intervalos de confiança e previsão; aplicações de bancos de dados reais de mercado em Excel e em R. Supervised Machine Learning: Modelos Logísticos Binários e Multinomiais Conceitos de probabilidade e chance de ocorrência de eventos; curva sigmoide S e modelo probabilístico; estimação por máxima verossimilhança; modelos de risco de crédito e de probabilidade de default; intervalos de confiança e previsão; conceito de cutoff; confusion matrix; análise de sensibilidade; indicadores de acurácia, sensitividade e especificidade; curva ROC; índice GINI; modelos multinomiais; curvas spline; aplicações de bancos de dados reais de mercado em Excel e em R. Supervised Machine Learning: Modelos para Dados de Contagem Dados de contagem; conceito de exposição; estimação por máxima verossimilhança; modelo Poisson; modelo binomial negativo; overdispersion; teste de Cameron e Trivedi; intervalos de confiança e previsão; modelagem para eventos raros; zero-inflated models; aplicações de bancos de dados reais de mercado em Excel e em R. Supervised Machine Learning: Modelagem Multinível Generalized linear multilevel models (GLMM); conceitos e definições; caracterização de alinhamento e agrupamento nos dados; hierarquias e contextos em modelagem de dados; efeitos contextuais; efeitos aleatórios de intercepto e de inclinação entre contextos; vantagens dos modelos multinível e incremento real de desempenho preditivo; modelos hierárquicos lineares (HLM); inserção correta de variáveis individuais e contextuais em modelos multinível; aplicações de bancos de dados reais de mercado em R. Séries Temporais Leitura de dados em série temporal; Plotagem e decomposição de séries temporais; Método de Holt-Winters; Alisamento exponencial (exponential smoothing); Decomposição de séries sazonais e ajustamento sazonal; Modelos ARIMA; Diferenciação de séries temporais; Seleção de modelos ARIMA; Forecast para modelos ARIMA; Exemplos e exercícios adicionais dos modelos estudados. Big Data e Deployment de Modelos Processamento distribuído de big data; estimação de modelos; encapsulamento e deploy de modelo para produção; utilização prática de modelo em produção. Tópicos Especiais Avaliações, atividades complementares, trabalhos em grupo e interação. Realização das Provas EaD: as provas são disponibilizadas no dia seguinte a aula ao vivo. Atividades complementares: slides das aulas, material de leitura pré e pós-aula, bibliografia indicada, eventos, reportagens, artigos, entre outros. Esclarecimento de dúvidas via e-mail após as aulas ao vivo: caso os alunos ainda tenham dúvidas após a aula ministrada, estas serão encaminhadas para o professor e as respostas serão compartilhadas com os alunos pela intranet. Interação em aula (trabalhos em grupo): durante a aula ao vivo serão utilizadas as ferramentas TalkShow, Zoom, Wooclap e outros de interação, para desenvolvimento e apresentação de trabalhos em grupo, sanar dúvidas com professor, compartilhar experiências com a turma, responder a enquetes que ajudam na fixação do conteúdo, entre outros. Chat: ferramenta do sistema acadêmico utilizada durante as aulas ao vivo para que os alunos enviem as dúvidas ao professor. O histórico do chat fica disponível nos materiais da aula após o término da aula ao vivo. Bibliografia do módulo AGRESTI, A. Categorical data analysis. 3. ed. Hoboken: John Wiley & Sons, 2013. ALBERGARIA, M.; FÁVERO, L. P. Narrow replication of Fisman and Miguel's (2007a) 'Corruption, norms, and legal enforcement: evidence from diplomatic parking tickets'. Journal of Applied Econometrics, v. 32, n. 4, p. 919-922, 2017. ALBUQUERQUE, J. P. A.; FORTES, J. M. P.; FINAMORE, W. A. Probabilidade, variáveis aleatórias e processos estocásticos. Rio de Janeiro: Interciência, 2008. ALCALDE, A.; FÁVERO, L. P.; TAKAMATSU, R. T. EBITDA margin in Brazilian companies: variance decomposition and hierarchical effects. Contaduría y Administración, v. 58, n. 2, p. 197-220, 2013. BAKKE, H. A.; LEITE, A. S. M.; SILVA, L. B. Estatística multivariada: aplicação da análise fatorial na engenharia de produção. Revista Gestão Industrial, v. 4, n. 4, p. 1-14, 2008. BALAKRISHNAN, P. V.; COOPER, M. C.; JACOB, V. S.; LEWIS, P. A. A study of the classification capabilities of neural networks using unsupervised learning: a comparison with k-means clustering. Psychometrika, v. 59, n. 4, p. 509-525, 1994. BOLFARINE, H.; BUSSAB, W. O. Elementos de amostragem. São Paulo: Edgard Blϋcher, 2005. BOLFARINE, H.; SANDOVAL, M. C. Introdução à inferência estatística. Rio de Janeiro: Sociedade Brasileira de Matemática, 2001. BONETT, D. G. Varying coefficient meta-analytic methods for alpha reliability. Psychological Methods, v. 15, n. 4, p. 368-385, 2010. CHARNET, R.; BONVINO, H.; FREIRE, C. A. L.; CHARNET, E. M. R. Análise de modelos de regressão linear: com aplicações. 2. ed. Campinas: Editora da UNICAMP, 2008. CHATTERJEE, S.; JAMIESON, L.; WISEMAN, F. Identifying most influential observations in factor analysis. Marketing Science, v. 10, n. 2, p. 145-160, 1991. CHEN, M. H.; IBRAHIM, J. G.; SHAO, Q. M. Maximum likelihood inference for the Cox regression model with applications to missing covariates. Journal of Multivariate Analysis, v. 100, n. 9, p. 2018-2030, 2009. DEMIDENKO, E. Mixed models: theory and applications. New York: John Wiley & Sons, 2005. DEUS, J. E. R. Escalamiento multidimensional. Madrid: Editorial La Muralla, 2001. DEVORE, J. L. Probabilidade e estatística para engenharia. São Paulo: Thomson Pioneira, 2006. ESPINOZA, F. S.; HIRANO, A. S. As dimensões de avaliação dos atributos importantes na compra de condicionadores de ar: um estudo aplicado. Revista de Administração Contemporânea (RAC), v. 7, n. 4, p. 97-117, 2003. EVERITT, B. S.; LANDAU, S.; LEESE, M.; STAHL, D. Cluster analysis. 5. ed. Chichester: John Wiley & Sons, 2011. FABRIGAR, L. R.; WEGENER, D. T.; MacCALLUM, R. C.; STRAHAN, E. J. Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, v. 4, n. 3, p. 272-299, 1999. ESPINOZA, F. S.; HIRANO, A. S. As dimensões de avaliação dos atributos importantes na compra de condicionadores de ar: um estudo aplicado. Revista de Administração Contemporânea (RAC), v. 7, n. 4, p. 97-117, 2003. EVERITT, B. S.; LANDAU, S.; LEESE, M.; STAHL, D. Cluster analysis. 5. ed. Chichester: John Wiley & Sons, 2011. FABRIGAR, L. R.; WEGENER, D. T.; MacCALLUM, R. C.; STRAHAN, E. J. Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, v. 4, n. 3, p. 272-299, 1999. HAIR JR., J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009. HALL, D. B. Zero-inflated Poisson and binomial regression with random effects: a case study. Biometrics, v. 56, p. 1030-1039, 2000. LANDAU, S.; EVERITT, B. S. A handbook of statistical analyses using SPSS. Boca Raton: Chapman & Hall / CRC Press, 2004. LANE, W. R.; LOONEY, S. W.; WANSLEY, J. W. An application of the Cox proportional hazards model to bank failure. Journal of Banking & Finance, v. 10, n. 4, p. 511-531, 1986. LINOFF, G. S.; BERRY, M. J. A. Data mining techniques: for marketing, sales, and customer relationship management. 3. ed. Indianapolis: John Wiley & Sons, 2011. LISBOA, E.F.A. Pesquisa operacional. Disponível em . Acesso em 28 de Setembro de 2010. LOMBARDO, R.; BEH, E. J.; D’AMBRA, L. Non-symmetric correspondence analysis with ordinal variables using orthogonal polynomials. Computational Statistics & Data Analysis, v. 52, p. 566-577, 2007. LONG, J. S.; FREESE, J. Regression models for categorical dependent variables using Stata. 2. ed. College Station: Stata Press, 2006. PAMPEL, F. C. Logistic regression: a primer. Thousand Oaks: Sage Publications, 2000. PARDOE, I. Applied regression modeling. 2. ed. Hoboken: John Wiley & Sons, 2012. RAYKOV, T.; MARCOULIDES, G. A. An introduction to applied multivariate analysis. New York: Routledge, 2008. REIS, E. Estatística multivariada aplicada. 2. ed. Lisboa: Edições Sílabo, 2001. RIGAU, J. G. Traducción del término ‘odds ratio’. Gaceta Sanitaria, v. 16, p. 35, 1990. RODRIGUES, M. C. P. Potencial de desenvolvimento dos municípios fluminenses: uma metodologia alternativa ao IQM, com base na análise fatorial exploratória e na análise de clusters. Caderno de Pesquisas em Administração, v. 9, n. 1, p. 75-89, 2002. RODRIGUES, P. C.; LIMA, A. T. Analysis of an European union election using principal component analysis. Statistical Papers, v. 50, n. 4, p. 895-904, 2009. SANTOS, M. A.; FÁVERO, L. P.; DISTADIO, L. F. Adoption of the International Financial Reporting Standards (IFRS) on companies' financing structure in emerging economies. Finance Research Letters, v. 16, n. 1, p. 179-189, 2016. SAPORTA, G. Probabilités, analyse des données et statistique. Paris: Technip, 1990. SARAIVA Jr, A. F.; TABOSA, C. M.; COSTA, R. P. Simulação de Monte Carlo aplicada à análise econômica de pedido. Produção, v. 21, n. 1., p.149-164, 2011. TURKMAN, M. A. A.; SILVA, G. L. Modelos lineares generalizados: da teoria à prática. Lisboa: Edições SPE, 2000. VALENTIN, J. L. Ecologia numérica: uma introdução à análise multivariada de dados ecológicos. 2. ed. Rio de Janeiro: Interciência, 2012. VIEIRA, S. Estatística básica. São Paulo, Cengage Learning, 2012. VITTINGHOFF, E.; GLIDDEN, D. V.; SHIBOSKI, S. C.; McCULLOCH, C. E. Regression methods in biostatistics: linear, logistic, survival, and repeated measures models. 2. ed. New York: Springer-Verlag, 2012. VUONG, Q. H. Likelihood ratio tests for model selection and non-nested hypotheses. Econometrica, v. 57, n. 2, p. 307-333, 1989. WU, Z. et al. Optimization designs of the combined Shewhart CUSUM control charts. Computational Statistics and Data Analysis, v. 53, n. 2, p. 496-506, 2008. WULFF, J. N. Interpreting results from the multinomial logit: demonstrated by foreign market entry. Organizational Research Methods, v. 18, n. 2, p. 300-325, 2015. XIE, F. C.; WEI, B. C.; LIN, J. G. Assessing influence for pharmaceutical data in zero-inflated generalized Poisson mixed models. Statistics in Medicine, v. 27, n. 18, p. 3656-3673, 2008. XIE, M.; HE, B.; GOH, T. N. Zero-inflated Poisson model in statistical process control. Computational Statistics & Data Analysis, v. 38, n. 2, p. 191-201, 2001. |
||||
Carga Horária: |
118 horas |
||||
Tipo: | Obrigatória | ||||
Vagas oferecidas: | 4600 | ||||
Ministrantes: |
Adriana Maria Marques da Silva Fabiano Guasti Lima Helder Prado Santos Henrique Rozenfeld Luiz Paulo Lopes Favero Wilson Tarantin Júnior |
voltar |
Créditos © 1999 - 2024 - Superintendência de Tecnologia da Informação/USP |