Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages

Medina, Roberto Carlos

Please use this identifier to cite or link to this item: http://hdl.handle.net/10071/36653

Author(s):	Medina, Roberto Carlos
Advisor:	Batista, Fernando Lima, Estanislau
Date:	24-Nov-2025
Title:	Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages
Reference:	Medina, R. C. (2025). Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36653
Keywords:	Cape Verdean creole Processamento de linguagem natural - -- NLP Natural language processing Machine translation Datasets Crioulo cabo-verdiano Tradução automática
Abstract:	Cape Verdean Creole is the most commonly spoken language in Cape Verde, it has been and continues to be, severely under-researched in natural language processing. This thesis provides natural language processing research for Cape Verdean Creole with Morabeza Corpus, an expanded and improved version of CrioleSet [1], both two parallel corpora for that includes translations pairs between Cape Verdean Creole, English, Portuguese and French, with broader dialectal coverage and thorough preprocessing, which represents some of the first reliable research for natural language processing in Cape Verdean Creole. Based on these parallel datasets, the study explores multiple methods for machine translation starting with baseline systems and pursuing transfer learning and fine-tuned multilingual pre-trained systems. The results indicate that mBART-50 fine-tuned on Morabeza Corpus delivered state-of-the-art performance with BLEU scores exceeding 80, chrF score near 90, and low translation edit rate, while manual raters showed high levels of fluency, idiomaticity, and semantic fidelity. In addition, the thesis proposes an automated framework for classification of Cape Verdean Creole dialectal variants yieldingacceptable levels of accuracy, showing the capacity for computational methods to capture the linguistic diversity encoded internally in a language. The thesis also provides productive self-examination of potential challenges that may arise such as scarcity of data, variable orthography, and poor computational resources which may inform possibilities to examine data and shape further research. Overall, this thesis shows that developing strong resources and achieving competitive performance in natural language processing for Cape Verdean Creole is both achievable and significant, which has made an important contribution to the digital inclusion of Cape Verdean Creole into the wider world of natural language processing. O crioulo cabo-verdiano é a língua mais falada em Cabo Verde, mas tem sido e continua a ser muito pouco trabalhado em processamento de linguagem natural. Esta tese oferece pesquisa em processamento de linguagem natural para o crioulo cabo-verdiano com o Morabeza Corpus, uma versão expandida e melhorada do CrioleSet [1], dois corpora paralelos que incluem traduções entre o crioulo cabo-verdiano, inglês, português e francês, com cobertura dialetal aprimorada e pré-processamento abrangente, o que representa uma das primeiras pesquisas confiáveis em processamento de linguagem natural para o crioulo cabo-verdiano. Com base nesses conjuntos de dados paralelos, o estudo explora múltiplos métodos para Tradução Automática, começando com sistemas de base e buscando aprendizagem por transferência e sistemas multilíngues pré-treinados e aprimorados. Os resultados indicam que o mBART-50 ajustado no Morabeza Corpus apresenta bom desempenho, com pontuações BLEU superiores a 80, pontuação chrF próxima a 90 e baixa taxa de edição de tradução, enquanto que as avaliações manuais apresentaram altos níveis de fluência, idiomaticidade e fidelidade semântica. Além disso, a tese propõe uma estrutura automatizada para classificação de variantes dialetais para o crioulo cabo-verdiano, produzindo níveis aceitáveis de precisão, demonstrando a capacidade dos métodos computacionais de capturar a diversidade linguística codificada internamente em uma língua. A tese também fornece uma autoanálise produtiva dos potenciais desafios que podem surgir, como escassez de dados, ortografia variável e recursos computacionais insuficientes, que podem informar possibilidades de examinar dados e moldar pesquisas futuras. No geral, esta tese demonstra que desenvolver recursos sólidos e alcançar desempenho competitivo em processamento de linguagem natural para o crioulo cabo-verdiano é algo alcançável e significativo, o que tem contribuído significativamente para a inclusão digital do crioulo cabo-verdiano no mundo mais amplo da processamento de linguagem natural.
Department:	Departamento de Métodos Quantitativos para Gestão e Economia
Degree:	Mestrado em Ciência de Dados
Peerreviewed:	yes
Access type:	Open Access
Appears in Collections:	T&D-DM - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
master_roberto_carlos_medina.pdf		1,79 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License