Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages

Medina, Roberto Carlos

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36653

Registo completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Batista, Fernando	-
dc.contributor.advisor	Lima, Estanislau	-
dc.contributor.author	Medina, Roberto Carlos	-
dc.date.accessioned	2026-03-18T12:30:56Z	-
dc.date.available	2026-03-18T12:30:56Z	-
dc.date.issued	2025-11-24	-
dc.date.submitted	2025-09	-
dc.identifier.citation	Medina, R. C. (2025). Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36653	por
dc.identifier.uri	http://hdl.handle.net/10071/36653	-
dc.description.abstract	Cape Verdean Creole is the most commonly spoken language in Cape Verde, it has been and continues to be, severely under-researched in natural language processing. This thesis provides natural language processing research for Cape Verdean Creole with Morabeza Corpus, an expanded and improved version of CrioleSet [1], both two parallel corpora for that includes translations pairs between Cape Verdean Creole, English, Portuguese and French, with broader dialectal coverage and thorough preprocessing, which represents some of the first reliable research for natural language processing in Cape Verdean Creole. Based on these parallel datasets, the study explores multiple methods for machine translation starting with baseline systems and pursuing transfer learning and fine-tuned multilingual pre-trained systems. The results indicate that mBART-50 fine-tuned on Morabeza Corpus delivered state-of-the-art performance with BLEU scores exceeding 80, chrF score near 90, and low translation edit rate, while manual raters showed high levels of fluency, idiomaticity, and semantic fidelity. In addition, the thesis proposes an automated framework for classification of Cape Verdean Creole dialectal variants yieldingacceptable levels of accuracy, showing the capacity for computational methods to capture the linguistic diversity encoded internally in a language. The thesis also provides productive self-examination of potential challenges that may arise such as scarcity of data, variable orthography, and poor computational resources which may inform possibilities to examine data and shape further research. Overall, this thesis shows that developing strong resources and achieving competitive performance in natural language processing for Cape Verdean Creole is both achievable and significant, which has made an important contribution to the digital inclusion of Cape Verdean Creole into the wider world of natural language processing.	por
dc.description.abstract	O crioulo cabo-verdiano é a língua mais falada em Cabo Verde, mas tem sido e continua a ser muito pouco trabalhado em processamento de linguagem natural. Esta tese oferece pesquisa em processamento de linguagem natural para o crioulo cabo-verdiano com o Morabeza Corpus, uma versão expandida e melhorada do CrioleSet [1], dois corpora paralelos que incluem traduções entre o crioulo cabo-verdiano, inglês, português e francês, com cobertura dialetal aprimorada e pré-processamento abrangente, o que representa uma das primeiras pesquisas confiáveis em processamento de linguagem natural para o crioulo cabo-verdiano. Com base nesses conjuntos de dados paralelos, o estudo explora múltiplos métodos para Tradução Automática, começando com sistemas de base e buscando aprendizagem por transferência e sistemas multilíngues pré-treinados e aprimorados. Os resultados indicam que o mBART-50 ajustado no Morabeza Corpus apresenta bom desempenho, com pontuações BLEU superiores a 80, pontuação chrF próxima a 90 e baixa taxa de edição de tradução, enquanto que as avaliações manuais apresentaram altos níveis de fluência, idiomaticidade e fidelidade semântica. Além disso, a tese propõe uma estrutura automatizada para classificação de variantes dialetais para o crioulo cabo-verdiano, produzindo níveis aceitáveis de precisão, demonstrando a capacidade dos métodos computacionais de capturar a diversidade linguística codificada internamente em uma língua. A tese também fornece uma autoanálise produtiva dos potenciais desafios que podem surgir, como escassez de dados, ortografia variável e recursos computacionais insuficientes, que podem informar possibilidades de examinar dados e moldar pesquisas futuras. No geral, esta tese demonstra que desenvolver recursos sólidos e alcançar desempenho competitivo em processamento de linguagem natural para o crioulo cabo-verdiano é algo alcançável e significativo, o que tem contribuído significativamente para a inclusão digital do crioulo cabo-verdiano no mundo mais amplo da processamento de linguagem natural.	por
dc.language.iso	eng	por
dc.rights	openAccess	por
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	por
dc.subject	Cape Verdean creole	por
dc.subject	Processamento de linguagem natural - -- NLP Natural language processing	por
dc.subject	Machine translation	por
dc.subject	Datasets	por
dc.subject	Crioulo cabo-verdiano	por
dc.subject	Tradução automática	por
dc.title	Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages	por
dc.type	masterThesis	por
dc.peerreviewed	yes	por
dc.identifier.tid	204092345	por
dc.subject.fos	Domínio/Área Científica::Ciências Sociais::Economia e Gestão	por
dc.subject.fos	Domínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologias	por
thesis.degree.name	Mestrado em Ciência de Dados	por
thesis.degree.department	Departamento de Métodos Quantitativos para Gestão e Economia	por
Aparece nas coleções:	T&D-DM - Dissertações de mestrado