【KDD2025】一种新颖的可解释性无监督异常检测模型

（KDD’25）一种新颖的可解释性无监督异常检测模型(graph)：Global Interpretable Graph-level Anomaly Detection via Prototype 论文地址： https://dl.acm.org/doi/pdf/10.1145/3711896.3736983

代码地址: https://zenodo.org/records/15486171

0前言

现有GLAD（图级异常检测）方法虽在异常识别任务中取得良好成果，但其可解释性一直是神经网络模型实际应用中所面临的的难题之一。由于其黑盒性质，如在脑网络致病机制中我们很难确定是哪一关键部分导致的异常，这导致了图神经网络并不能被很好的信赖。尽管也有研究尝试为每个输入样本提供实例级解释（针对数据集中的每张图都做出解释），但实例级解释存在两大局限:一是针对每个样本都进行解释，人工验证成本高。在生物化学、神经生物学中，人工验证需要相关领域的专家。二是每个样本的单实例解释无法捕捉到异常背后的整体机制，解释效果不及全局性解释。

01 动机

前言所提到的问题，是图异常检测神经网络在实际中所遇到的大方向问题，那么落实到模型方法实现上，还有哪些问题需要解决呢？

首当其冲的是如何给出全局级别的解释，单个级别的解释其实在模型操作层面已经比较成熟，如使用一个参数化的抽取器抽取图中的节点和边，进而根据抽取后的子图计算loss，梯度回传给抽取器。但是全局级别的解释需要统筹这些所有的单例解释。其次就是标签稀缺性问题，正常标签比例占绝大部分，异常标签是难以获取的，因此监督模型难以应用于实际情况，或者说其成本较高。

02方法

说完了GLAD所面临的问题，我们来看看这篇论文提出的模型GLADPRO是如何处理设计的。首先，我们先放上模型图：

无监督学习框架:GLADPRO提出了一种基于原型与信息瓶颈(IB)的无监督学习框架，传统IB依赖标签，但受限于标签稀少问题，作者对其进行了改进。使用原型Zp来代替标签，原型是一组随机初始化的参数向量，随着模型一起学习并不断优化，那么改进IB公式便可以表示为：

通过最小化原型与子图Gs之间无关的冗余信息，同时最大化子图与原型之间的互信息来进行训练。这样避免无关噪声的影响并使得原型更精准的捕捉子图的共性模式。

子图提取:提取子图需要确保不冗余，能够捕捉关键结构。有效的子图结构才能更好的辅助原型学习。直接上公式:

s)，服从Bernoulli，超参数r=0.7——表示节点保留的概率，边保留概率为r2。由于kl散度非负，且log <=KL(p||q)，即可推得在原始图和原型已知情况下的子图条件分布与先验分布的对数似然比的期望减去两子图分布的kl散度小于等于条件分布与先验分布的 KL 散度的期望。通过优化右侧的kl散度损失，我们即可确保子图分布与先验分布接近且与原图原型强关联，防止子图提取过于随意，扩大不必要的噪声，同时保留关键信息。

原型学习:原型是一组可学习的参数向量，同时也是可解释性异常检测的核心载体，每个原型代表一个全局性的关键子图模式。有点类似于聚类，而原型则是锚点，每个样本会被分配给一个原型，由于正常样本占大多数的性质。原型周边聚集的即为正常共性，而远离原型的个别即为异常。那么GLADPRO是如何学习这个原型来获得全局的共性的呢，依旧从公式入手:

首先是对每个子图嵌入 (由GNN得到)，计算其与所有原型的余弦相似度，根据相似度，将子图分配到相似度最高的原型簇。分配好后，我们需要让原型学习到簇内的紧凑表示，这里使用对比学习损失（InfoNCE）最大化子图嵌入与对应原型的互信息，即上述的公式。分子为正样本，对分配到第m个原型簇的子图计算其与原型的相似度后经系数τ缩放。分母为负样本，对未分配到第m个原型簇的子图，同样计算指数和。通过最小化该损失，模型会强化同一簇内子图与原型相似度高，不同簇则低，从而让原型成为该簇子图 “共性模式” 的精准代表。