NLP、KG相关数据集汇总

2020 年 7 月 6 日 AINLP

点击蓝字,来茶馆喝一杯呀

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。NLP语料是按照中文和外语,以及不同task来进行分类。带索引的汇总可以在文章最后列出的repo中获取。



  1.  数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。

  2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。

    如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。

  3. 我这里“问答”和“阅读理解”划分的标准是:

    输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;

    “问答”可以看做是对话的另外一种形式。




  NLP中文语料  


生语料



人民日报新闻数据:包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面。原始数据是图文数据库,我将其转存百度网盘(https://pan.baidu.com/s/1YJ6vVfJQVVLGavs1hAdSuQ),然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本(repo中)将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。



微信公众号语料库(https://github.com/nonamestreet/weixin_public_corpus):只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。


结构化数据



中国古代人物传记数据库(The China Biographical Database, CBDB(https://projects.iq.harvard.edu/cbdb):是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。

CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本(repo中),表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。


文本分类数据集



2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的数据,数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑(https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip)



今日头条中文新闻(短文本)分类数据集(https://github.com/fateleak/toutiao-text-classfication-dataset):共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。



清华新闻分类语料(http://thuctc.thunlp.org/):74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。



SMP2017中文人机对话评测数据(https://github.com/HITlilingzhi/SMP2017ECDT-DATA):包含了两个任务的数据集,用户意图领域分类和特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。



中国新闻网新闻分类语料(https://github.com/zhangxiangxiao/glyph):从中国新闻网爬取2008-2016年七个新闻种类的新闻,包括中国大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)



凤凰网新闻分类语料(https://github.com/zhangxiangxiao/glyph):从凤凰网爬取2006-2016年五个新闻种类的新闻,包括中国大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)


序列标注数据集(分词、命名实体识别、词性标注等)



SiGHAN2005分词数据集(http://sighan.cs.uchicago.edu/bakeoff2005/,或在我的repo中下载):北大、香港城市大学、台湾“中央研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。



MSRA命名实体识别数据集(https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/MSRA):包含地名、人名和机构名三类。



人民日报命名实体识别数据集(https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily):包含地名、人名和机构名三类。



微博命名实体识别数据集(https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/Weibo):包含地名、人名、机构名、行政区名四类。



影视、音乐、书籍实体标注数据(https://github.com/LG-1/video_music_book_datasets):类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。



BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。



cluener(https://github.com/CLUEbenchmark/CLUENER2020):是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)



人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。



1300W字的新闻[标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章(https://cloud.tencent.com/developer/article/1091906)。(下载地址:https://pan.baidu.com/s/17djsvYfpYUXrazL0H_mtoA)



指代消解



CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务(https://github.com/CLUEbenchmark/CLUEWSC2020)训练集:1244,开发集:304。


对话




110万轮对话,共400万句(https://github.com/UCSD-AI4H/Medical-Dialogue-System):从好大夫网上爬的。



中文医疗对话数据集(https://github.com/Toyhom/Chinese-medical-dialogue-data):


领域
数据量
男科
94596
内科
220606
妇产科 183751
肿瘤科
75553
儿科 101602
外科 115991


情感分析



携程网酒店评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):5000+条正向评论,2000+负向评论。



外卖评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):4000+正向,8000+负向。



电商商品评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。



微博情感数据(https://github.com/SophonPlus/ChineseNlpCorpus):10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。



微博情感数据(https://github.com/SophonPlus/ChineseNlpCorpus):36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。



电影评论评分数据(https://github.com/SophonPlus/ChineseNlpCorpus):28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。



大众点评餐馆评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)



Amazon商品评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。



豆瓣电影评论数据(https://github.com/SophonPlus/ChineseNlpCorpus):5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。



大众点评用户评论(https://github.com/zhangxiangxiao/glyph):从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)



京东用户评论数据(https://github.com/zhangxiangxiao/glyph):JD full是五分类数据,1-5星每个星级为一个类别,类别的样本数相同。300万训练集,25万测试集。JD binary是二分类数据,1-2星属于负面评论,4-5星属于正面评论,忽略3星,类别的样本数相同。400万训练集,36万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,JD full和JD binary子文件)


语义相似度(文本蕴含)



LCQMC(http://icrc.hitsz.edu.cn/info/1037/1146.htm):26万对句子,判别两个问句是否表示相同的意思。(https://pan.baidu.com/s/1yerI7P6Lvm7HdgrKdRJyGQ,提取码:q8y1)



中文文本语义相似度语料库(https://github.com/IAdmireu/ChineseSTS):相似度值:0-5,5表示相似度最高(意思一样),0表示相似度最低(语义相反或不相干)



ATEC蚂蚁金服语义相似度数据(https://dc.cloud.alipay.com/index?click_from=MAIL&_bdType=acafbbbiahdahhadhiih#/topic/intro?id=3):给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义(数据集在我repo也可以下载)。


问答



580万百度知道社群问答(https://github.com/liuhuanyong/MiningZhiDaoQACorpus):包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。



DuReader(http://ai.baidu.com/broad/introduction?dataset=dureader):百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。



不同领域的知道问答数据(https://github.com/SophonPlus/ChineseNlpCorpus):包含保险、金融、法律等领域,字段有用户query,网友回答和最佳回答。



社区问答数据(https://github.com/brightmart/nlp_chinese_corpus):

含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。


阅读理解



人民日报&童话故事(https://github.com/ymcui/Chinese-Cloze-RC):完形填空类型的,预测的是一个词,2.8万篇文档,10万个query。



CMRC2017(https://github.com/ymcui/cmrc2017):新闻领域的语料,形式为完形填空和用户提问类两种,共36万+数据。



CMRC2018(https://github.com/ymcui/cmrc2018):维基语料,1.8万个query,形式为给定用户query从上下文抽取span。


CMRC2019(https://github.com/ymcui/cmrc2019):句子级别的完形填空。1000篇文档,10万个query。根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。与CMRC 2017的不同是:空缺部分不再只是一个词,而是一个句子;每个篇章不只是一个空缺,会包含多个空缺位置,机器可利用的信息大大减少;候选选项中包含假选项,即该选项不属于篇章中任何一个空缺位置,显著增加了解答难度。



DRCD(https://github.com/DRCKnowledgeTeam/DRCD):维基语料,3.4万个query,形式为给定用户query从上下文抽取span(繁体汉语)。



C^3(https://dataset.org/c3/):文档是混合类型的,有对话、故事、新闻报道、广告等。形式为用户提问类,结果是根据候选答案进行选择(只有一个是正确的)。1.4万篇文档,2.4万query。



ChiD(https://github.com/chujiezheng/ChID-Dataset):成语预测类型任务(完形填空),给定上下文和每个位置候选的成语列表,预测该位置应该填什么成语。共58万篇文档,72.9万query(cloze)。



DuReader(http://ai.baidu.com/broad/introduction?dataset=dureader):百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。


  NLP外文语料  

文本分类数据集



Fake News Corpus(https://github.com/several27/FakeNewsCorpus):940万篇新闻,745个类别(domain)。



AG News(http://groups.di.unipi.it/~gulli/AG_corpus_of_news_articles.html):100多万的新闻数据,分为全球新闻、运动、商业和科技四类。



ColBERT(https://www.kaggle.com/moradnejad/200k-short-texts-for-humor-detection):20万条短文本,判断是否包含幽默元素的二分类数据集,正负各十万。

情感分析



MovieTweetings(https://github.com/sidooms/MovieTweetings):推特电影评分数据集,822,784条,0-10分评分。



Amazon Fine Food Reviews(https://www.kaggle.com/snap/amazon-fine-food-reviews):亚马逊上的食品评价,包含56万条评论,涉及7.4万产品,1-5分。



Amazon Reviews(https://nijianmo.github.io/amazon/index.html):美亚上面商品的评论数据,有2.3亿条。



Yelp Open Dataset(https://www.yelp.com/dataset):包含800多万条评论



MovieLens(https://grouplens.org/datasets/movielens/):包含2500万条电影评论,涉及6万2千部电影和16万用户,100万个标签。


对话



Twitter Chat Corpus(https://github.com/Marsan-Ma-zz/chat_corpus):500多万推特对话数据。


序列标注数据集



DAWT(https://github.com/klout/opendata/tree/master/wiki_annotation):包含了六种语言共1300万的文章,实体提及(mention)是链接到Freebase的具体实体上的,标注信息也包括了实体类别。


机器翻译



中英翻译数据集(https://github.com/brightmart/nlp_chinese_corpus):

520万对中英文平行语料,每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词。



Europarl(http://www.statmt.org/europarl/):欧盟21种语言翻译平行语料:20种语言到英语的平行语料,包括保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语。(https://pan.baidu.com/s/13mpJ-pKgCVMnDgwUgVoPCQ)



联合国平行语料(https://cms.unov.org/UNCorpus/):当前版本(1.0)由联合国的官方文件和其他议会文件组成,包含了联合国的六种官方语言(英语、法语、俄语、汉语、阿拉伯语、西班牙语两两之间的平行语料对),语料的内容主要是在1990-2014年之间产生和翻译的,并在句子级别上进行了对齐。(https://pan.baidu.com/s/1fHDl8PbvsbmCo7a0BCWGlg,目前只包含中文到除阿拉伯语的其他语言翻译对)



news-commentary(http://data.statmt.org/news-commentary/v14/):WMT提供的新闻评论语料,共98个双语对,15种语言。(https://pan.baidu.com/s/1RMMuX9eiB5BIpdmWNDH-Tw)



wikititles(http://data.statmt.org/wikititles/v1/):WMT提供的维基百科标题多语对,共11个双语对,14种语言。(https://pan.baidu.com/s/1Sl_MyzVb4p2P0kiHcx1SQA)



Ted Talk:Ted上面有丰富的语料资源,包含了109种语言。ajinkyakulkarni14(https://github.com/ajinkyakulkarni14/TED-Multilingual-Parallel-Corpus)提供了2014年获取的平行语料,和获取语料的脚本。neubig也提供了他们用于论文实验的Ted数据(https://github.com/neulab/word-embeddings-for-nmt,https://pan.baidu.com/s/1ztRdarsvIRMvgBBmfD9rnQ)。


语义相似度(文本蕴含)



PAWS and PAWS-X(https://github.com/google-research-datasets/paws):Goggle公开的同义句识别语料。PAWS是英文语料,包含108463对英文句子对;PAWS-X包含中、法、德、日、韩、西班牙六种语言的语料,每种语言大约5.3W条。



Dialogue Natural Language Inference(https://wellecks.github.io/dialogue_nli/):用于改善对话模型的一致性,判断句子对之间的关系,是蕴含、中性还是矛盾。



MultiNLI Matched/Mismatched(https://cims.nyu.edu/~sbowman/multinli/):43万对句子,判断是蕴含、中性还是矛盾。包含多种类型的文本,涉及口语和书面语言。



XNLI(https://cims.nyu.edu/~sbowman/xnli/):11.2万句子对,判断是蕴含、中性还是矛盾。共有十四种语言,有中文。



SNLI(https://nlp.stanford.edu/projects/snli/):57万个句子对,判断是蕴含、中性还是矛盾。



Quora Question Pairs(https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs):判断两个问句是否是语义等价的,共40万对。


问答



MS MARCO(https://microsoft.github.io/msmarco/):100多万的问答数据,也适用于阅读理解、文章排序、关键词抽取等任务。


阅读理解



HotpotQA(https://hotpotqa.github.io/):100多万问答对。需要多跳推理才能得到正确答案,难度更大。



SQuAD v2.0 (https://rajpurkar.github.io/SQuAD-explorer/):15万问答对,依据给出的上下文,其中10万可回答,5万不可回答。


文本摘要



BigPatent(https://evasharma.github.io/bigpatent/):包含130万的美国专利文档,和人工撰写的摘要。



  语言资源  

实体类



百科实体(2010年):根据当时百科页面的标签来筛选实体类型(人名、地名),存在一定噪音,酌情使用。95433个地名(https://pan.baidu.com/s/1CpIr1qPAUen2pfisWXMxqQ),278577个人名(https://pan.baidu.com/s/1OuKC3ax9Qk5krL_vH10-kg)。



中国古代编年史CBDB实体(2017年):227266个人名(https://pan.baidu.com/s/1YMLxdAgKNrviaYC1cqod4Q)和百科的会有重合。


词典类




百科词条名(2010年百度百科):一千万词条名(https://pan.baidu.com/s/1DkgtFmhpxxq6Qx67PgU10A)。



360万中文词库(包含词性和词频):该资源作者为刘邵博,由其综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。词典结构为:词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得(https://pan.baidu.com/s/11T4CNHAQ30EHj456-gJVwQ)。



谷歌书籍N-gram数据(https://aws.amazon.com/cn/datasets/google-books-ngrams/):分别整理了多种语言的n-gram词典资源,包含中文,从1到5-gram都有。



  KG数据  


1.4亿三元组中文知识图谱(https://github.com/ownthink/KnowledgeGraphData)



Dbpedia(https://wiki.dbpedia.org/develop/datasets/dbpedia-version-2016-10):多语知识图谱数据,共有130亿个三元组,但大部分都是英语。有760个类,1105个关系,1622个属性。



开放的中文知识图谱社区(http://www.openkg.cn/):这里有很多垂直领域图谱数据,我就不一一放上来了。



最后,如果这个资源对你有帮助,也可以关注我的repo,https://github.com/SimmerChan/corpus,排版更清晰,方便索引。可以提PR添加遗漏的数据集,共同完善。


推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
108+阅读 · 2020年3月17日
专知会员服务
104+阅读 · 2020年3月12日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
44+阅读 · 2019年11月20日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
68+阅读 · 2019年5月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
164+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
108+阅读 · 2020年3月17日
专知会员服务
104+阅读 · 2020年3月12日
资源|Blockchain区块链中文资源阅读列表
专知会员服务
44+阅读 · 2019年11月20日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
68+阅读 · 2019年5月17日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
30+阅读 · 2018年12月27日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关论文
Top
微信扫码咨询专知VIP会员