In text classification, the problem of overfitting arises due to the high dimensionality, making regularization essential. Although classic regularizers provide sparsity, they fail to return highly accurate models. On the contrary, state-of-the-art group-lasso regularizers provide better results at the expense of low sparsity. In this paper, we apply a greedy variable selection algorithm, called Orthogonal Matching Pursuit, for the text classification task. We also extend standard group OMP by introducing overlapping group OMP to handle overlapping groups of features. Empirical analysis verifies that both OMP and overlapping GOMP constitute powerful regularizers, able to produce effective and super-sparse models. Code and data are available at: https://www.dropbox.com/sh/7w7hjns71ol0xrz/AAC\string_G0\string_0DlcGkq6tQb2zqAaca\string?dl\string=0 .


翻译:在文本分类中,由于高维度,过度装配问题出现于文本分类中,使规范化变得必不可少。虽然典型的正规化者提供宽度,但他们未能返回非常准确的模型。相反,最先进的群集-lasso正规化者以低宽度为代价提供了更好的结果。在本文中,我们为文本分类任务采用了一种贪婪的变量选择算法,称为“正弦匹配追求”。我们还通过引入重叠的组 OMP 来扩展标准组 OMP, 处理重叠的特征组 。 经验分析证实 OMP 和重叠的 GOMP 构成强大的正规化者, 能够产生有效和超精细的模型。 代码和数据可以在 https://www.droppox.com/sh/7w7jjnsol710xrz/ AACstring_G0\string_0DlcGkqq6tQ2zq\\qstring? dl\string=0 。

6
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
15+阅读 · 2019年10月15日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
相关论文
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2017年7月23日
Top
微信扫码咨询专知VIP会员