Uma abordagem multivariada para modelos conjuntos de dados longitudinais e de sobrevivência

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/65437

Título:	Uma abordagem multivariada para modelos conjuntos de dados longitudinais e de sobrevivência
Outro(s) título(s):	A mutivariate approach to joint modelling of longitudinal and survival data
Autor(es):	Afonso, Pedro Manuel Miranda
Orientador(es):	Sousa, Inês
Palavras-chave:	Dados longitudinais Sados omissos Abandono informativo Modelo conjunto paramétrico Longitudinal data Missing data Informative dropout Parametric joint model
Data:	2019
Resumo(s):	Um grande desafio da análise de dados longitudinais é a presença de observações omissas por abandono de alguns dos participantes. Se o motivo do abandono está relacionado com a resposta longitudinal em análise (e.g., o paciente morre da doença em estudo), os dados observados podem não representar uma amostra aleatória dos dados completos. Esta perda de informação conduz a uma redução da precisão, e se não for tratada adequadamente, pode conduzir a inferências enviesadas e conclusões imprecisas. Por este motivo, quando o abandono ocorre de forma não aleatória, o processo de omissão não pode ser ignorado e deve ser considerado na análise. Neste contexto, a modelação conjunta de dados longitudinais e de tempo-até-evento surge como uma solução. Neste trabalho foi desenvolvida uma função para o software R, que permite ao utilizador usar uma base de dados completa para gerar novas bases de dados com dados omissos, enquanto controla o mecanismo de omissão e proporção global de abandono dos participantes. Esta função designa-se por trim() e será incluída num package já existente no software R. Depois, fazendo uso da função desenvolvida e de conjuntos de dados completos simulados, é apresentado um estudo para avaliar de que forma as caraterísticas do conjunto de dados longitudinais e caraterísticas dos dados omissos influenciam inferências baseadas exclusivamente nos dados observados. Mais ainda, este trabalho estende o modelo Gaussiano transformado proposto por Diggle et al. (2008) [1] para descrever a distribuição conjunta das respostas longitudinal e tempo-até-abandono. A contribuição nesta dissertação foi a proposta de novas estruturas de correlação para este modelo, com uma interpretação mais intuitiva, através da inclusão de um parâmetro de associação entre as duas respostas. O algoritmo EM foi aplicado para obter as estimativas de máxima verosimilhança dos parâmetros do modelo conjunto, em alternativa à diferenciação da log-verosimilhança seguida no trabalho inicial. Esta abordagem permitiu-nos obter, na presença de tempo-até-abandono censurados, pela primeira vez, expressões com forma fechada para alguns dos parâmetros do modelo. A major challenge in the analysis of longitudinal data is the presence of missing data due to participants dropping out. If the reasons for dropping out are related to the outcome measure (e.g., a patient dies from the disease under study), the observed data may not resemble a random sample of the complete data. This loss of information leads to a reduction in accuracy, and, if not handled properly, the observed data may lead to biased inferences and inaccurate conclusions. Hence, when drop-outs occur non-randomly, the loss of this data cannot be ignored and must be taken into account in the analysis. Within this context, the joint modelling of longitudinal data and time-to-event data comes into play. In this work, a function is developed for the software R that allows the user to use a complete dataset to generate new datasets with missing observations while controlling the missing mechanism and the overall subject dropout proportion. This function, trim(), will be added to an existing R package. We conducted a simulation study, using the developed function and simulated complete datasets, to investigate how the characteristics of both the longitudinal dataset and missing observations influence inferences based solely on the observed data. Further work builds upon the multivariate Gaussian model proposed by Diggle et al. (2008) [1] to describe the joint distribution of longitudinal and missing processes. The contribution of this dissertation is the proposal of a new correlation structure for this model with a more intuitive interpretation based on an association parameter between two responses. The EM algorithm is used to derive the maximum likelihood estimates of the joint model in lieu of the differentiation of the log-likelihood method used in the initial work. This approach makes possible, for the first time, closed-form expressions for some of the model parameters when censored times are observed.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Estatística
URI:	https://hdl.handle.net/1822/65437
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DMA - Dissertações de mestrado EEG - Dissertações de Mestrado