Github 项目推荐 | 100+ Chinese Word Vectors 上百种预训练中文词向量

2018 年 5 月 17 日 AI研习社 AI研习君

该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量。开发者可以轻松获得具有不同属性的预先训练的向量,并将它们用于下游任务。

此外,该库还提供了一个中文类比推理数据集CA8和评估工具包,供用户评估他们的单词向量的质量。

  格式

预先训练好的向量文件是 text 格式,每行包含一个单词和它的向量,每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个表示维度。

除了密集的单词矢量(用 SGNS 训练)之外,我们还提供稀疏矢量(用 PPMI 训练)。 它们与 liblinear 的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。

Github:

https://github.com/Embedding/Chinese-Word-Vectors

  预训练中文词向量

基础设置

不同的领域

用不同的表示法,上下文特征和语料库训练的中文单词向量。

*本库提供了字符嵌入,因为大部分古汉字都是独立的字符。

  各种共现信息

本库根据不同的共现信息发布单词向量,目标向量和上下文向量在相关论文中被称为输入和输出向量。

这一部分,可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。所有向量都在百度百科上使用 SGNS 训练。

从Python入门-如何成为AI工程师

BAT资深算法工程师独家研发课程

最贴近生活与工作的好玩实操项目

班级管理助学搭配专业的助教答疑

学以致用拿offer,学完即推荐就业


新人福利


关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据资料】


基于典型相关分析的词向量

登录查看更多
0

相关内容

【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
46+阅读 · 2020年6月18日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
35+阅读 · 2020年5月1日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
216+阅读 · 2020年4月26日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
专知会员服务
118+阅读 · 2019年12月24日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
Github 项目推荐 | YOLOv3 的最小化 PyTorch 实现
AI研习社
25+阅读 · 2018年5月31日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
推荐|斯坦福的Stanford.NLP.NET:集合多个NLP工具
全球人工智能
3+阅读 · 2017年12月25日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
46+阅读 · 2020年6月18日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
35+阅读 · 2020年5月1日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
216+阅读 · 2020年4月26日
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
专知会员服务
118+阅读 · 2019年12月24日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
相关资讯
【Github】GPT2-Chinese:中文的GPT2训练代码
AINLP
52+阅读 · 2019年8月23日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
Github 项目推荐 | YOLOv3 的最小化 PyTorch 实现
AI研习社
25+阅读 · 2018年5月31日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
干货|自然语言处理中的词向量 — word2vec!
全球人工智能
7+阅读 · 2018年1月25日
推荐|斯坦福的Stanford.NLP.NET:集合多个NLP工具
全球人工智能
3+阅读 · 2017年12月25日
Top
微信扫码咨询专知VIP会员