Classificação de preferências no retalho alimentar: uma abordagem supervisionada

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92181

Título:	Classificação de preferências no retalho alimentar: uma abordagem supervisionada
Outro(s) título(s):	Preference ranking in food retail: a supervised approach
Autor(es):	Rocha, Rodrigo Filipe Rodrigues
Orientador(es):	Machado, Luís Meira Freitas, Ana
Palavras-chave:	Support Vector Machine Machine learning Deep learning Classificação automática Embeddings
Data:	15-Dez-2023
Resumo(s):	Com a atual exigência por parte dos consumidores, os retalhistas são obrigados a estar ao nível dos mesmos e sendo o Continente um retalhista que aposta na personalização do serviço prestado, não é exceção. Desta forma, dado que o Continente comunica com os seus clientes por diversos canais (Folheto personalizado, cupões, etc.), é necessários que estes contenham o máximo de personalização possível no que toca a exigências/restrições alimentares. Tendo isto como premissa, o projeto baseia-se no desenvolvimento de um sistema de classificação automático de produtos em diferentes categorias (vegetariano, vegan, sem lactose, sem glúten, sem açúcar e biológico) utilizando diferentes abordagens. Este projeto une diferentes abordagens de Machine Learning e Deep Learning para responder ao problema proposto. O projeto está dividido em três grandes partes, classificação de imagem, classificação texto e ensembles, sendo este uma junção das duas anteriores e uma ”quarta” parte de extração de texto de imagem. Para a classificação de imagem, foram testadas diferentes técnicas, sendo que inicialmente foram utilizadas duas arquiteturas pré-treinadas, EfficientNet e VGG-16, que foram posteriormente treinadas num dataset obtido com imagens de produtos do Continente Online e utilizadas como classificadoras. Foi utilizada uma segunda abordagem onde as mesmas arquiteturas foram utilizadas como extratoras de características das imagens e posteriormente alimentadas a um support vector machine para classificação. Na classificação de texto foram testadas também duas abordagens, primeiramente foi criada uma rede neuronal convolucional e utilizada uma matriz de embeddings pré-treinada. Numa segunda abordagem foi utilizada a arquitetura pré-treinada Bidirecional Encoder Representations from Transformers como classificadora, treinada num dataset com descrições de produtos. No ensemble foi utilizada uma regressão logística alimentada com as probabilidades de classificação do melhor modelo de texto e imagem. Para finalizar tentou-se implementar uma ”quarta” parte que iria servir como complemento ao modelo de classificação de texto, que seria a extração de texto de uma imagem. Foi utilizada uma tecnologia de reconhecimento ótico de caracteres. With today’s consumer demands, retailers are obliged to keep up with them, and Continente a retailer that invests heavily in personalizing the service provided, is no exception. Therefore, given that Continente communicates with its customers through various channels (personalized leaflets, coupons, etc.), it is necessary that these contain as much personalization as possible when it comes to dietary requirements/restrictions. With this as a premise, the project is based on developing a system for automatically classifying products into different categories (vegetarian, vegan, lactose-free, gluten-free, sugar-free and organic) using different approaches. This project brings together different approaches from Machine Learning and Deep Learning to answer the proposed problem. The project is divided into three main parts, image classification, text and ensembles, the latter being a combination of the previous two and a ”fourth” part for extracting text from images. For the first part, image classification, different techniques were tested, initially using two pre-trained architectures, EfficientNet and VGG-16, which were then trained on a dataset obtained with product images from Continente Online and used as classifiers. Since the results were unsatisfactory, a second approach was used where the same architectures were used as feature extractors from the images and then fed to a Support Vector Machinefor classification. In text classification, two approaches were also tested: first, a Convolutional Neural Network was created and a pre-trained nembeddings matrix was used. A second approach used the pre-trained Bidirec tional Encoder Representations from Transformers architecture as a classifier, trained on a dataset with product descriptions. In the ensemble, a logistic regression was used, fed with the classification probabilities of the best text and image model. Finally, an attempt was made to implement a ”fourth” part that would serve as a complement to the text classification model, which would be the extraction of text from an image. Optical character recognition technology was used.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Estatística para Ciência de Dados
URI:	https://hdl.handle.net/1822/92181
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado DMAT - Dissertações de Mestrado