Orchestrator selection process for cloud-native machine learning experimentation

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/83233

Título:	Orchestrator selection process for cloud-native machine learning experimentation
Autor(es):	Sousa, Afonso Rafael Carvalho
Orientador(es):	Fernandes, João M. Ferreira, André Leite
Palavras-chave:	Kubeflow Kubernetes Machine learning MLOps Orchestration Orquestração
Data:	2022
Resumo(s):	Machine learning (ML) model development is a very experimental, repetitive, and error prone task, because ML is itself very obscure - there is no way to know what model works best for our goals beforehand, so practitioners have an incentive to experiment with as many models, approaches and techniques as they can. Additionally, going from raw data to a well adjusted model is a delicate process that often requires complex, multi-step pipelines. Combine the two factors and it becomes apparent how easy it is to get lost within a sea of artifacts and results without a well defined process, hindering the development process with poor reusability, lots of technical debt, and integration-hell. This makes adherence to best practices - MLOps - paramount. However, with the recent boom experienced in this field came a plethora of different tools and services, all trying to satisfy different subsets of needs of the model life cycle, meaning that, more often than not, ML practitioners do not know what the best set of tools for their use case might be. The experimental nature of ML means we should indeed try different tools, but there is a high risk that it might not fit the necessary requirements, generating needless costs. One particularly relevant type of tool is the orchestrator - a central piece of the experimentation process which controls the communication and execution of the components of a model pipeline. This work follows the creation process for an enterprise ML cloud environment, with particular focus on the selection of an adequate orchestrator for cloud-native setups. Additionally, it presents MetaTool, a web application designed to speed up future tool selection processes by leveraging knowledge gathered during previous instances. Finally, it reaches two key conclusions: first, broader organizational factors that might seem out of scope can influence or even alter the final choice, and second, although using a tool like MetaTool might speed up the decision-making process, it requires significant organizational commitment. O desenvolvimento de modelos de machine learning (ML) é uma atividade muito experimental, repetitiva e propícia a erros, porque ML é muito obscura - não há forma de saber de antemão qual o modelo mais adequado para os nossos objetivos, pelo que os praticantes têm um incentivo para experimentar com o maior número possível de modelos, abordagens e técnicas que conseguirem. Adicionalmente, passar de dados para um modelo bem ajustado é um processo delicado que frequentemente requer pipelines complexas e com vários passos. Combinando os dois fatores fica aparente o quão fácil é ficar perdido num mar de artefactos e resultados sem um processo bem definido, dificultando o processo de desenvolvimento com fraca capacidade de reutilização, muita technical debt, e integration hell. Isto torna a adesão às melhores práticas - MLOps - imperativa. Contudo, com o recente avanço verificado neste domínio veio uma abundância de diferentes ferramentas e serviços, todos tentando satisfazer diferentes subconjuntos de necessidades do ciclo de vida dos modelos, pelo que os praticantes de ML acabam frequentemente na dúvida de qual poderá ser o melhor conjunto de ferramentas para os seus casos de uso. A natureza experimental de ML faz com que se devam experimentar diferentes ferramentas, mas há um grande risco de escolher algo não satisfaça os requisitos necessários, levando a custos desnecessários. Uma categoria de ferramentas particularmente relevantes são os orquestradores - uma peça central no processo de experimentação que controla a comunicação e execução dos componentes da pipeline do modelo. Este trabalho acompanha a criação dum ambiente cloud industrial para ML, com particular foco na escolha do orquestrador adequado para ambientes na nuvem. Adicionalmente, apresenta MetaTool, uma aplicação web pensada para acelerar futuros processos de tomada de decisão empregando conhecimento adquirido durante processos anteriores. Finalmente, alcança duas conclusões chave: primeiro, fatores organizacionais aparentemente irrelevantes podem influenciar ou até alterar a escolha final, e segundo, apesar de ferramentas como MetaTool poderem acelerar o processo de tomada de decisão, requerem um empenho da organização.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado integrado em Informatics Engineering
URI:	https://hdl.handle.net/1822/83233
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DI/CCTC - Dissertações de Mestrado (master thesis)