Detecting keywords in texts is important for many text mining applications. Graph-based methods have been commonly used to automatically find the key concepts in texts, however, relevant information provided by embeddings has not been widely used to enrich the graph structure. Here we modeled texts co-occurrence networks, where nodes are words and edges are established either by contextual or semantical similarity. We compared two embedding approaches -- Word2vec and BERT -- to check whether edges created via word embeddings can improve the quality of the keyword extraction method. We found that, in fact, the use of virtual edges can improve the discriminability of co-occurrence networks. The best performance was obtained when we considered low percentages of addition of virtual (embedding) edges. A comparative analysis of structural and dynamical network metrics revealed the degree, PageRank, and accessibility are the metrics displaying the best performance in the model enriched with virtual edges.


翻译:在文本中检测关键字对许多文本挖掘应用很重要。基于图表的方法通常被用来自动查找文本中的关键概念,然而,嵌入层提供的相关信息并没有被广泛用于丰富图形结构。在这里,我们模拟了文本共同出现网络,其中节点是文字和边缘,通过上下文或语义相似性来建立。我们比较了两种嵌入方法 -- -- Word2vec 和 BERT -- -- 以检查通过文字嵌入生成的边缘是否能提高关键字提取方法的质量。我们发现,事实上,虚拟边缘的使用可以改善共同生成网络的可调和性。当我们考虑虚拟(叠装)边缘添加率低时,取得了最佳的成绩。对结构和动态网络衡量尺度的比较分析揭示了等级,PageRank和可获取性是显示以虚拟边缘丰富模型的最佳性能的尺度。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
21+阅读 · 2021年2月13日
已删除
Arxiv
33+阅读 · 2020年3月23日
VIP会员
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
相关论文
Arxiv
21+阅读 · 2021年2月13日
已删除
Arxiv
33+阅读 · 2020年3月23日
Top
微信扫码咨询专知VIP会员