Clustering non-independent and identically distributed (non-IID) data under local differential privacy (LDP) in federated settings presents a critical challenge: preserving privacy while maintaining accuracy without iterative communication. Existing one-shot methods rely on unstable pairwise centroid distances or neighborhood rankings, degrading severely under strong LDP noise and data heterogeneity. We present Gravitational Federated Clustering (GFC), a novel approach to privacy-preserving federated clustering that overcomes the limitations of distance-based methods under varying LDP. Addressing the critical challenge of clustering non-IID data with diverse privacy guarantees, GFC transforms privatized client centroids into a global gravitational potential field where true cluster centers emerge as topologically persistent singularities. Our framework introduces two key innovations: (1) a client-side compactness-aware perturbation mechanism that encodes local cluster geometry as "mass" values, and (2) a server-side topological aggregation phase that extracts stable centroids through persistent homology analysis of the potential field's superlevel sets. Theoretically, we establish a closed-form bound between the privacy budget $ε$ and centroid estimation error, proving the potential field's Lipschitz smoothing properties exponentially suppress noise in high-density regions. Empirically, GFC outperforms state-of-the-art methods on ten benchmarks, especially under strong LDP constraints ($ε< 1$), while maintaining comparable performance at lower privacy budgets. By reformulating federated clustering as a topological persistence problem in a synthetic physics-inspired space, GFC achieves unprecedented privacy-accuracy trade-offs without iterative communication, providing a new perspective for privacy-preserving distributed learning.


翻译:在联邦学习环境中,对非独立同分布(non-IID)数据进行局部差分隐私(LDP)下的聚类面临一个关键挑战:如何在避免迭代通信的同时,既保护隐私又保持准确性。现有的一步式方法依赖于不稳定的成对质心距离或邻域排序,在强LDP噪声和数据异构性下性能严重下降。我们提出引力联邦聚类(GFC),这是一种新颖的隐私保护联邦聚类方法,克服了基于距离的方法在不同LDP下的局限性。针对具有多样化隐私保证的非IID数据聚类的关键挑战,GFC将私有化的客户端质心转化为全局引力势场,其中真实的聚类中心作为拓扑持久的奇点显现。我们的框架引入两个关键创新:(1)一种客户端侧紧凑性感知扰动机制,将局部聚类几何编码为“质量”值;(2)一种服务器侧拓扑聚合阶段,通过势场超水平集的持久同调分析提取稳定质心。理论上,我们建立了隐私预算$ε$与质心估计误差之间的闭式界,证明了势场的Lipschitz平滑特性在高密度区域指数级抑制噪声。实证上,GFC在十个基准测试中优于最先进的方法,特别是在强LDP约束下($ε< 1$),同时在较低隐私预算下保持相当性能。通过将联邦聚类重新表述为合成物理启发空间中的拓扑持久性问题,GFC实现了前所未有的隐私-准确性权衡,无需迭代通信,为隐私保护分布式学习提供了新视角。

0
下载
关闭预览

相关内容

【WWW2025】基于不确定性的图结构学习
专知会员服务
17+阅读 · 2月20日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
18+阅读 · 2021年3月31日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员