©PaperWeekly 原创 ·
作者 |
张永祺
论文标题:
KGTuner: Efficient Hyper-parameter Search for Knowledge Graph Learning
收录会议:
ACL 2022
论文地址:
https://aclanthology.org/2022.acl-long.194.pdf
代码链接:
https://github.com/AutoML-Research/KGTuner
超参数搜索,是机器学习模型获得良好性能的关键。对于知识图谱的学习来说,同样是一个重要问题,一方面超参数的好坏会严重影响模型性能,另一方面模型训练时间长,现有的超参数搜索算法在这一问题上一个个尝试不同超参数配置,往往效率低下。为解决这一问题,我们详细地分析了知识图谱学习中不同超参数的性质,及子图到全图的迁移能力。
基于分析,我们提出两阶段的超参数搜索算法 KGTuner,如图 1 所示,我们在第一阶段利用子图高效地探索大量超参数,并将性能最好的几组超参数配置迁移到全图上,在第二阶段进行微调。实验表明,两阶段搜索算法大大提升了超参数搜索效率,在不同的大规模知识图谱链接预测任务上,均获得了性能的提升。
▲ 图1. KGTuner: 两阶段超参数搜索算法
首先,我们将知识图谱学习问题,抽象成图1所示的框架,共包括五个重要组成部分:打分函数(scoring function),负采样(negative sampling),损失函数(loss function),正则化(regularization)和优化方式(optimization)。给定打分函数,即模型后,对其他四个成分进行配置,即为知识图谱学习中的超参数配置过程。
表 3 列出了知识图谱学习问题中常见的超参数和其取值范围,不同超参数的取值,构成了一个个不同的超参数配置。
整体的优化目标,可以定义为图4中的二阶段优化问题。从超参数搜索空间
中获取一个超参数配置
之后,我们训练模型参数
,拿到验证集上的性能反馈
,目标在有限的时间内,从表 3 的范围中,尽可能搜索到性能更好的超参数配置。
超参数搜索过程中,最关键的问题是效率,影响图4中搜索问题效率的主要有三个方面:(1)超参数搜索空间
的大小,决定了搜索范围;(2)反馈指标
的曲面分布,决定了哪种模型可以更好地模拟超参数空间;(3)模型训练
的开销,决定了评估单个超参数配置的效率。
为减小超参数搜索空间
,我们首先通过控制变量法,得到表 3 中的不同超参数各自的性能表现分布,并依据分布图将超参数分为四类。(1)选项缩减,如图 5 第一排所示,有的超参数选项恒定最优或恒定最差,我们可以将最优的固定,或者将最差的剔除。(2)范围裁剪,如图 5 第二排所示,一些连续型超参的范围可以被缩减到性能更优的区域。(3)单调变化,对于批大小和表示维度这样的超参数,通常更大的取值效果更好。(4)无明显规律。
▲ 图5. 不同组超参数表现分布图。蓝色小提琴图度量排名分布,越低越好。橙色箱线图度量性能分布,越高越好
同时,我们对不同超参的变化一致性进行了评估,即改变一个超参数,其他超参数的排序的变化大小。对于一致性高的超参数,我们可以先搜索其他超参,最后再对其进行微调。如图 6 所示,批大小和表示维度的一致性较高,其搜索可以与其他超参数解耦开。
我们在图 7 中绘制了性能表现的曲面,和三个近似模型,即随机森林(RF)、高斯过程(GP)、多层感知器(MLP)的近似曲面。可以看出,随机森林模型的近似程度明显更好,更适合当前问题这样复杂的超参数空间。
最后我们研究了一些典型超参数的训练评估开销,及子图到全图的迁移能力。如图 8 所示,大的批量和大的表示维度会明显增大训练评估开销,而其他超参数对开销的影响不大。考虑到批大小和维度大小具有较高的一致性,我们可以先利用小的批量和参数维度去搜索其他超参,最后再增大二者的取值。
我们通过相同一组超参数配置,在子图和全图上评估的一致性,来度量子图的迁移能力。首先,对于不同子图采样方法,如图 9 左下所示 multi-start random walk 的子图采样方式是更优的选择。对于采样子图大小的比例,如图 9 右下所示 20%~30% 的节点数目能更好的平衡迁移能力和评估效率。因此,我们选择通过 multi-start random walk 的方式来采 20% 的结点,加快超参数配置的评估。
完整算法如图 10 所示,在第一阶段,我们利用采样好的子图、小的批大小和参数维度,并以随机森林为预测模型来探索大量的超参数配置。第一阶段中前十的样本将被放入第二阶段,将其批大小和参数维度增大,恢复到全图上,进行最后的微调。最终全图上效果最好的超参数配置,即为最终搜索到的超参数。
实验效果,KGTuner 在知识图谱链接预测任务上进行了测试,包括样本内的数据(即超参理解实验所用的数据)WN18RR、FB15k-237,及样本外的大规模图谱 ogbl-biokg、ogbl-wikikg2。可以看到,大多数模型的效果,在 KGTuner 调参之后,性能均获得了提升。
▲ 图11. KGTuner对不同知识图谱链接预测模型调参结果对比
搜索效率方面,KGTuner 与传统超参搜索算法,如 Random search、Hyperopt、Ax、SMAC、RF+BORE,和图网络超参搜索算法 AutoNE,进行了对比,如图 12 所示,KGTuner 在第二阶段一开始,就能找到比其他搜索算法更好的模型,因为 KGTuner 的算法设计同时考虑到了搜索空间、预测器和评估代价。
▲ 图12. 不同超参搜索算法对比,左图越大越好,右图越小越好
由于 KGTuner 目前局限于单个三元组的模型,如 TransE、ComplEx 等,扩展到更多类型模型,如 CompGCN 等,利用图结构的模型,会是一个重要方向。除了超参数搜索之外,可以结合 AutoSF,实现超参数和模型的全自动化搜索。此外,整个算法目前缺少理论层面的理解,加强了理论分析,将更有利于算法的优化和完善。
[1] A Survey on Knowledge Graphs: Representation, Acquisition and Applications. TNNLS 2022.
[2] You CAN Teach an Old Dog New Tricks! On Training Knowledge Graph Embeddings. ICLR 2020.
[3] Bilinear Scoring Function Search for Knowledge Graph Learning. TPAMI 2022
[4] Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013
[5] Convolutional 2D Knowledge Graph Embeddings. AAAI 2018
[6] Complex Embeddings for Simple Link Prediction. ICML 2017
[7] Algorithms for Hyper-Parameter Optimization. NeurIPS 2011
[8] BORE: Bayesian Optimization by Density-Ratio Estimation. ICML 2021
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧