Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/35421
Título: | Variable selection in linear regression models with large number of predictors |
Autor(es): | Shahriari, Shirin |
Orientador(es): | Faria, Susana Gonçalves, A. Manuela |
Palavras-chave: | Bootstrap Least angle regression (LARS) Linear regression Partial least squares regression (PLSR) Outlier detection Variable selection Deteção de outliers Principal components regression (PCR) Regressão linear Seleção de variáveis |
Data: | 18-Dez-2014 |
Resumo(s): | In this thesis, we study the problem of variable selection in linear regression models
in the presence of a large number of predictors. Usually, some of these predictors are
correlated, so including all of them in a regression model will not essentially improve
the model's predictive ability. Also, models with reasonable and tractable amount
of predictors are easier to interpret than models with a large number of predictors.
Therefore, variable selection is an important problem to study. Given that there are
some popular regression methods capable of handling collinearity in data but still
requiring the removal of irrelevant predictors, so we present an algorithm that enable
these methods to perform variable selection. We review the well-known variable
selection methods, and investigate the performance of these methods as well as the
proposed approach on both simulated and real data sets. The results show that the
new algorithm performs well in selecting the relevant variables.
Also, when the data contains outliers, outlier detection and variable selection are
not two separable problems. Therefore, we propose a method capable of outlier
detection and variable selection. We review the well-known robust variable selection
methods and evaluate the performance of these methods with the proposed approach
on contaminated simulation data sets as well as on real data. The results show
that the proposed method performs well concerning both outlier detection and robust
variable selection. Nesta dissertação foi estudado o problema da seleção de variáveis em modelos de regressão linear, na presença de um grande número de variáveis explicativas ou preditoras, em que usualmente, algumas das variáveis explicativas estão correlacionadas. Um princípio a ser levado em consideração e o "princípio da parcimonia": modelos mais simples devem ser escolhidos aos mais complexos, desde que a qualidade do ajustamento/previsão seja similar. Estes modelos são mais fáceis de interpretar do que os modelos com um grande número de preditores. Portanto, o estudo de métodos de seleção de variáveis e um problema muito importante em modelos de regressão. Dado que existem alguns métodos de regressão, já bem conhecidos, capazes de lidar com a multicolinearidade entre os dados, mas ainda não removendo os preditores irrelevantes, apresentamos um algoritmo que permite realizar a seleção de variáveis. São estudados métodos de seleção de variáveis e investigados os desempenhos desses métodos, bem como o desempenho do algoritmo proposto, com dados simulados e com dados reais. Os resultados mostram que o novo algoritmo tem um bom desempenho na seleção das variáveis relevantes para o modelo. Além disso, quando os dados contêm valores atípicos, a detecção de outliers e a seleção de variáveis não podem ser estudados como dois problemas separáveis. Assim, nesta dissertação foi proposto um método capaz de deteção de outliers e de seleção de variáveis, em simultâneo. Foram estudados os métodos de seleção de variáveis robustos mais conhecidos, de forma a avaliar e comparar o desempenho desses métodos com a abordagem proposta neste trabalho com estudos de simulação em situações de contaminação, bem como com dados reais. Os resultados mostram que o método desenvolvido tem um bom desempenho tanto em termos de deteção de outliers, assim como na seleção robusta de variáveis. |
Tipo: | Tese de doutoramento |
Descrição: | Tese de doutoramento do Programa Doutoral em Matemática e Aplicações |
URI: | https://hdl.handle.net/1822/35421 |
Acesso: | Acesso aberto |
Aparece nas coleções: | DMA - Teses de doutoramento |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
PhDThesis_Shirin_Shahriari_2014.pdf | 3,46 MB | Adobe PDF | Ver/Abrir |