Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36653
Registo completo
Campo DCValorIdioma
dc.contributor.advisorBatista, Fernando-
dc.contributor.advisorLima, Estanislau-
dc.contributor.authorMedina, Roberto Carlos-
dc.date.accessioned2026-03-18T12:30:56Z-
dc.date.available2026-03-18T12:30:56Z-
dc.date.issued2025-11-24-
dc.date.submitted2025-09-
dc.identifier.citationMedina, R. C. (2025). Creating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languages [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36653por
dc.identifier.urihttp://hdl.handle.net/10071/36653-
dc.description.abstractCape Verdean Creole is the most commonly spoken language in Cape Verde, it has been and continues to be, severely under-researched in natural language processing. This thesis provides natural language processing research for Cape Verdean Creole with Morabeza Corpus, an expanded and improved version of CrioleSet [1], both two parallel corpora for that includes translations pairs between Cape Verdean Creole, English, Portuguese and French, with broader dialectal coverage and thorough preprocessing, which represents some of the first reliable research for natural language processing in Cape Verdean Creole. Based on these parallel datasets, the study explores multiple methods for machine translation starting with baseline systems and pursuing transfer learning and fine-tuned multilingual pre-trained systems. The results indicate that mBART-50 fine-tuned on Morabeza Corpus delivered state-of-the-art performance with BLEU scores exceeding 80, chrF score near 90, and low translation edit rate, while manual raters showed high levels of fluency, idiomaticity, and semantic fidelity. In addition, the thesis proposes an automated framework for classification of Cape Verdean Creole dialectal variants yieldingacceptable levels of accuracy, showing the capacity for computational methods to capture the linguistic diversity encoded internally in a language. The thesis also provides productive self-examination of potential challenges that may arise such as scarcity of data, variable orthography, and poor computational resources which may inform possibilities to examine data and shape further research. Overall, this thesis shows that developing strong resources and achieving competitive performance in natural language processing for Cape Verdean Creole is both achievable and significant, which has made an important contribution to the digital inclusion of Cape Verdean Creole into the wider world of natural language processing.por
dc.description.abstractO crioulo cabo-verdiano é a língua mais falada em Cabo Verde, mas tem sido e continua a ser muito pouco trabalhado em processamento de linguagem natural. Esta tese oferece pesquisa em processamento de linguagem natural para o crioulo cabo-verdiano com o Morabeza Corpus, uma versão expandida e melhorada do CrioleSet [1], dois corpora paralelos que incluem traduções entre o crioulo cabo-verdiano, inglês, português e francês, com cobertura dialetal aprimorada e pré-processamento abrangente, o que representa uma das primeiras pesquisas confiáveis em processamento de linguagem natural para o crioulo cabo-verdiano. Com base nesses conjuntos de dados paralelos, o estudo explora múltiplos métodos para Tradução Automática, começando com sistemas de base e buscando aprendizagem por transferência e sistemas multilíngues pré-treinados e aprimorados. Os resultados indicam que o mBART-50 ajustado no Morabeza Corpus apresenta bom desempenho, com pontuações BLEU superiores a 80, pontuação chrF próxima a 90 e baixa taxa de edição de tradução, enquanto que as avaliações manuais apresentaram altos níveis de fluência, idiomaticidade e fidelidade semântica. Além disso, a tese propõe uma estrutura automatizada para classificação de variantes dialetais para o crioulo cabo-verdiano, produzindo níveis aceitáveis de precisão, demonstrando a capacidade dos métodos computacionais de capturar a diversidade linguística codificada internamente em uma língua. A tese também fornece uma autoanálise produtiva dos potenciais desafios que podem surgir, como escassez de dados, ortografia variável e recursos computacionais insuficientes, que podem informar possibilidades de examinar dados e moldar pesquisas futuras. No geral, esta tese demonstra que desenvolver recursos sólidos e alcançar desempenho competitivo em processamento de linguagem natural para o crioulo cabo-verdiano é algo alcançável e significativo, o que tem contribuído significativamente para a inclusão digital do crioulo cabo-verdiano no mundo mais amplo da processamento de linguagem natural.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectCape Verdean creolepor
dc.subjectProcessamento de linguagem natural - -- NLP Natural language processingpor
dc.subjectMachine translationpor
dc.subjectDatasetspor
dc.subjectCrioulo cabo-verdianopor
dc.subjectTradução automáticapor
dc.titleCreating NLP resources for Cape Verdean creole: Challenges and solutions for underrepresented languagespor
dc.typemasterThesispor
dc.peerreviewedyespor
dc.identifier.tid204092345por
dc.subject.fosDomínio/Área Científica::Ciências Sociais::Economia e Gestãopor
dc.subject.fosDomínio/Área Científica::Engenharia e Tecnologia::Outras Engenharias e Tecnologiaspor
thesis.degree.nameMestrado em Ciência de Dadospor
thesis.degree.departmentDepartamento de Métodos Quantitativos para Gestão e Economiapor
Aparece nas coleções:T&D-DM - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
master_roberto_carlos_medina.pdf1,79 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis Logotipo do Orcid 

Este registo está protegido por Licença Creative Commons Creative Commons