To measure the similarity of documents, the Wasserstein distance is a powerful tool, but it requires a high computational cost. Recently, for fast computation of the Wasserstein distance, methods for approximating the Wasserstein distance using a tree metric have been proposed. These tree-based methods allow fast comparisons of a large number of documents; however, they are unsupervised and do not learn task-specific distances. In this work, we propose the Supervised Tree-Wasserstein (STW) distance, a fast, supervised metric learning method based on the tree metric. Specifically, we rewrite the Wasserstein distance on the tree metric by the parent-child relationships of a tree and formulate it as a continuous optimization problem using a contrastive loss. Experimentally, we show that the STW distance can be computed fast, and improves the accuracy of document classification tasks. Furthermore, the STW distance is formulated by matrix multiplications, runs on a GPU, and is suitable for batch processing. Therefore, we show that the STW distance is extremely efficient when comparing a large number of documents.


翻译:为了测量文件的相似性,瓦森斯坦距离是一个强大的工具,但它需要很高的计算成本。最近,为了快速计算瓦森斯坦距离,提出了使用树度测量仪来接近瓦森斯坦距离的方法。这些以树为基础的方法可以快速比较大量文件;然而,它们不受监督,不学习特定任务距离。在这项工作中,我们建议采用以树度量为基础的监督树-瓦塞尔斯坦(STW)距离(STW),这是一种快速、有监督的衡量标准学习方法。具体地说,我们用树的父子关系在树测量仪上重写瓦西斯坦距离,并用对比性损失来将其表述为持续优化问题。我们实验性地表明,STW距离可以快速计算,提高文件分类任务的准确性。此外,STW距离是由矩阵乘法制定的,在GPU上运行,适合批量处理。因此,我们表明,在比较大量文件时,STW距离非常高效。

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月24日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
7+阅读 · 2018年3月12日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年9月24日
Arxiv
24+阅读 · 2021年3月4日
Arxiv
7+阅读 · 2018年3月12日
Top
微信扫码咨询专知VIP会员