Document clustering is a traditional, efficient and yet quite effective, text mining technique when we need to get a better insight of the documents of a collection that could be grouped together. The K-Means algorithm and the Hierarchical Agglomerative Clustering (HAC) algorithm are two of the most known and commonly used clustering algorithms; the former due to its low time cost and the latter due to its accuracy. However, even the use of K-Means in text clustering over large-scale collections can lead to unacceptable time costs. In this paper we first address some of the most valuable approaches for document clustering over such 'big data' (large-scale) collections. We then present two very promising alternatives: (a) a variation of an existing K-Means-based fast clustering technique (known as BigKClustering - BKC) so that it can be applied in document clustering, and (b) a hybrid clustering approach based on a customized version of the Buckshot algorithm, which first applies a hierarchical clustering procedure on a sample of the input dataset and then it uses the results as the initial centers for a K-Means based assignment of the rest of the documents, with very few iterations. We also give highly efficient adaptations of the proposed techniques in the MapReduce model which are then experimentally tested using Apache Hadoop and Spark over a real cluster environment. As it comes out of the experiments, they both lead to acceptable clustering quality as well as to significant time improvements (compared to K-Means - especially the Buckshot-based algorithm), thus constituting very promising alternatives for big document collections.


翻译:文件群集是一种传统、高效和相当有效的文本挖掘技术,当我们需要更好地了解可归集的收藏文件时,我们需要更好地了解可归集的文件文件。 K- Means 算法和等级组合组合法(HAC)算法是两种最已知和最常用的群集算法;前者是因为时间成本低,而后者是因为其准确性;然而,即使使用K-Means在大规模收藏的文本群集中使用K-Means,也可能导致不可接受的时间成本。在本文中,我们首先讨论一些最有价值的方法,在“大数据”(大比例)收藏中进行文件集集集集。我们然后特别提出两个非常有希望的替代方法:(a) 基于K-Means的快速组合算法的变换,以便用于文件群集的低成本,以及(b)基于定制版本的巴克肖特算算算算算算法的混合集方法,首先在输入数据集的样本中应用等级组合程序,然后将成果作为K-Means 最初的中心中心, 用来进行高比级的K- Means 快速的滚算方法,然后用来进行高额的滚算。

0
下载
关闭预览

相关内容

【2021新书】ApachePulsar 实战,402页pdf
专知会员服务
72+阅读 · 2021年12月29日
【2020新书】数据科学与机器学习导论,220页pdf
专知会员服务
81+阅读 · 2020年9月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
97+阅读 · 2019年12月4日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
Arxiv
0+阅读 · 2022年2月1日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
15+阅读 · 2019年6月25日
VIP会员
相关VIP内容
【2021新书】ApachePulsar 实战,402页pdf
专知会员服务
72+阅读 · 2021年12月29日
【2020新书】数据科学与机器学习导论,220页pdf
专知会员服务
81+阅读 · 2020年9月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
61+阅读 · 2019年12月21日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
97+阅读 · 2019年12月4日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
Top
微信扫码咨询专知VIP会员