The aim of this article is to introduce two Context-Free Grammars (CFG) for Nawatl Corpora expansion. Nawatl is an Amerindian language (it is a National Language of Mexico) of the $π$-language type, i.e. a language with few digital resources. For this reason the corpora available for the learning of Large Language Models (LLMs) are virtually non-existent, posing a significant challenge. The goal is to produce a substantial number of syntactically valid artificial Nawatl sentences and thereby to expand the corpora for the purpose of learning non contextual embeddings. For this objective, we introduce two new Nawatl CFGs and use them in generative mode. Using these grammars, it is possible to expand Nawatl corpus significantly and subsequently to use it to learn embeddings and to evaluate their relevance in a sentences semantic similarity task. The results show an improvement compared to the results obtained using only the original corpus without artificial expansion, and also demonstrate that economic embeddings often perform better than some LLMs.


翻译:本文旨在介绍两种用于纳瓦特尔语语料库扩展的上下文无关文法(CFG)。纳瓦特尔语是一种美洲原住民语言(墨西哥的国家语言),属于$π$型语言,即数字资源稀少的语言。因此,可用于大型语言模型(LLMs)学习的语料库几乎不存在,构成了重大挑战。目标是生成大量句法有效的纳瓦特尔语人工句子,从而扩展语料库以学习非上下文嵌入。为此,我们引入了两种新的纳瓦特尔语CFG,并以生成模式使用它们。利用这些文法,可以显著扩展纳瓦特尔语语料库,随后用于学习嵌入,并评估其在句子语义相似性任务中的相关性。结果显示,与仅使用未经人工扩展的原始语料库获得的结果相比,性能有所提升,同时也表明经济型嵌入通常优于某些LLMs。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员