Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92186

TítuloModelos lineares generalizados: avaliação de ferramentas de programação numa aplicação com bases de microdados reais
Autor(es)Marinho, Ana Isabel Silva
Orientador(es)Faria, Susana
Sousa, Rita
Palavras-chaveEstimação
Estudo de simulação
Linguagens de programação
Modelos lineares generalizados
Predição
Estimation
Simulation study
Programming languages
Generalized linear models
Prediction
Data22-Dez-2023
Resumo(s)Os Modelos Lineares Generalizados (MLG) são frequentemente utilizados quando se pretende estudar a relação entre variáveis, especialmente quando se analisa o impacto que uma ou mais variáveis explicativas exercem sobre uma determinada variável de interesse (variável resposta). A importância dos MLG não advém apenas de uma perspetiva aplicada, mas também do ponto de vista teórico. A relevância teórica desses modelos resulta do facto de estarem na base de muitos métodos estatísticos e de se utilizarem em diversas aplicações, destacando-se a centralidade da verosimilhança na teoria da inferência. Esta dissertação tem como objetivo avaliar e comparar o desempenho de diferentes linguagens de programação na estimação dos MLG e aplicar estes modelos a uma base de microdados real. Numa primeira fase, faz-se uma descrição detalhada da teoria dos MLG, com particular ênfase nos dois modelos de regressão que serviram como objeto de estudo: o Modelo de Regressão Logística e o Modelo de Regressão Poisson. Dado que os MLG se podem estimar usando várias linguagens de programação, faz-se uma análise comparativa com aplicações em R, Stata e Python, com o propósito de avaliar o desempenho das mesmas na estimação. Nesse contexto, foram analisados diversos critérios, incluindo o desempenho computacional, o tempo e número de iterações necessário na estimação dos modelos. Esta análise teve como base um estudo de simulação cujo processo de criação dos dados é descrito de forma detalhada no decorrer da dissertação. Os estudos de simulação são muito frequentes em Estatística, permitindo avaliar o desempenho e as propriedades de modelos estatísticos em cenários controlados e conhecidos. O estudo de simulação desenvolvido teve como principal objetivo avaliar e comparar a estimação dos coeficientes dos modelos e a capacidade de previsão dos mesmos usando funções de diferentes packages da linguagem de programação R. Na avaliação da previsão do modelo estudou-se a capacidade preditiva quando se estima o modelo com diferentes dimensões de subamostras. Por fim, aplicou-se um MLG numa base de microdados real disponibilizada pelo Laboratório de Investigação em Microdados do Banco de Portugal (BPLIM). Neste caso de estudo pretendeu-se identificar quais as variáveis do Painel harmonizado da Central de Balanços que melhor explicam o facto de uma empresa ser ou não exportadora. Com base nos estudos de simulação, concluiu-se no primeiro estudo que a função bayesglm apresenta estimativas menores nas medidas avaliadas, e no segundo estudo que a variabilidade das medidas de desempenho diminui à medida que a dimensão da amostra aumenta. No caso de estudo, obteve-se um modelo com uma Acurácia de aproximadamente 65%.
Generalized Linear Models (GLM) are often used when you want to study the relationship between variables, especially when analyzing the impact that one or more explanatory variables have on a given variable of interest (response variable). The importance of MLG does not only come from an applied perspective, but also from its deep theoretical meaning. The theoretical relevance of these models results from the fact that they are the basis of many statistical methods and are used in various applications, highlighting the centrality of likelihood in the theory of inference. This dissertation aims to assess and compare the performance of different programming languages in the estimation of GLM and apply these models to a real microdata base. Firstly, a detailed description of the MLG theory is made with particular emphasis on the two regression models that served as the object of study: the Logistic Regression Model and the Poisson Regression Model. Given that MLG can be estimated in several programming languages, a comparative analysis is carried out with applications in R, Stata and Python, with the purpose of evaluating their performance. In this context, several criteria were analyzed, including computational performance, time and number of iterations required to estimate the models. This analysis was based on a simulation study whose data creation process is described in detail throughout the dissertation. Given the similarity of the results obtained in the various programming languages, the study was developed mainly in R. Simulation studies are very common in Statistics, allowing the performance and properties of statistical models to be evaluated in controlled and known scenarios. The main objective of the simulation study developed was to estimate the model coefficients and their predictive capacity using functions from different packages of the R programming language, allowing their comparison. When evaluating the model’s prediction, the predictive capacity was studied when estimating the model with different subsample dimensions. Finally, an MLG was applied to a real microdata base provided by the Banco de Portugal Microdata Research Laboratory (BPLIM). In this case study, the aim was to identify which variables from the Harmonized Central Balance Sheet Panel best explain whether or not a company is an exporter. Based on simulation studies, it was concluded, in the first study, that the bayesglm function provides lower estimates for the evaluated metrics, and in the second study that the variability of performance metrics decreases as the sample dimension increases. In the case of this study, a model was obtained with an accuracy of approximately 65%.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Estatística para Ciência de Dados
URIhttps://hdl.handle.net/1822/92186
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DMAT - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Ana Isabel Silva Marinho.pdfDissertação de mestrado1,98 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID