We present OpenNER 1.0, a standardized collection of openly-available named entity recognition (NER) datasets. OpenNER contains 36 NER corpora that span 52 languages, human-annotated in varying named entity ontologies. We correct annotation format issues, standardize the original datasets into a uniform representation with consistent entity type names across corpora, and provide the collection in a structure that enables research in multilingual and multi-ontology NER. We provide baseline results using three pretrained multilingual language models and two large language models to compare the performance of recent models and facilitate future research in NER. We find that no single model is best in all languages and that significant work remains to obtain high performance from LLMs on the NER task. OpenNER is released at https://github.com/bltlab/open-ner.


翻译:我们推出OpenNER 1.0,这是一个标准化的、公开可用的命名实体识别(NER)数据集集合。OpenNER包含36个NER语料库,涵盖52种语言,这些语料库采用不同命名实体本体进行人工标注。我们修正了标注格式问题,将原始数据集标准化为统一表示形式,确保跨语料库的实体类型名称一致,并以支持多语言和多本体NER研究的结构提供该集合。我们使用三种预训练多语言模型和两种大语言模型提供了基线结果,以比较近期模型的性能,并促进NER领域的未来研究。我们发现,没有单一模型在所有语言中表现最佳,且要让大语言模型在NER任务上实现高性能仍需大量工作。OpenNER发布于https://github.com/bltlab/open-ner。

0
下载
关闭预览

相关内容

命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)
专知会员服务
10+阅读 · 2022年3月4日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
26+阅读 · 2019年4月30日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员