As web platforms evolve towards greater personalization and emotional complexity, conversational agents must transcend superficial empathy to demonstrate identity-aware emotional reasoning. However, existing systems face two limitations: (1) reliance on situation-centric datasets lacking persistent user identity, which hampers the capture of personalized affective nuances; and (2) dependence on opaque, coarse reward signals that hinder development of verifiable empathetic reasoning. To address these gaps, we introduce KardiaBench, a large-scale user-grounded benchmark comprising 178,080 QA pairs across 22,080 multi-turn conversations anchored to 671 real-world profiles. The dataset is constructed via a model-in-the-loop pipeline with iterative rubric-guided refinement to ensure psychological plausibility and persona consistency. This progressive empathy pipeline that integrates user comprehension, contextual reasoning, and emotion perception into conversations, followed by iterative critique and rubric-based refinement to ensure psychological plausibility, emotional fidelity, and persona consistency. Building on this, we propose Kardia-R1, a framework that trains models for interpretable, stepwise empathetic cognition. Kardia-R1 leverages Rubric-as-Judge Empathetic Reinforcement Learning (Rubric-ERL), a GRPO-based method that uses explainable, human-aligned rubric rewards to tightly couple user understanding, emotional inference, and supportive response generation. Extensive experiments across four LLM backbones demonstrate that Kardia-R1 consistently outperforms othet methods in emotion accuracy, empathy, relevance, persona consistency, and safety. Our dataset and model will be released at https://github.com/JhCircle/Kardia-R1.


翻译:随着网络平台向个性化和情感复杂性方向发展,对话智能体必须超越表面共情,展现出基于身份识别的情绪推理能力。然而,现有系统面临两大局限:(1)依赖以情境为中心、缺乏持续用户身份的数据集,难以捕捉个性化的情感细微差异;(2)依赖不透明、粗糙的奖励信号,阻碍了可验证共情推理能力的发展。为弥补这些不足,我们提出了KardiaBench——一个基于真实用户的大规模基准测试集,包含671个真实世界用户档案下的22,080轮多轮对话,共计178,080组问答对。该数据集通过模型在环的流水线构建,结合迭代式量表引导优化,确保心理合理性与角色一致性。该渐进式共情流水线将用户理解、情境推理和情绪感知整合到对话中,并通过迭代式评估与基于量表的优化来保障心理合理性、情感保真度和角色一致性。在此基础上,我们提出Kardia-R1框架,用于训练具有可解释性、分步式共情认知的模型。Kardia-R1采用基于量表的评判共情强化学习方法,这是一种基于GRPO的方法,利用可解释、符合人类标准的量表奖励,将用户理解、情绪推断和支持性回复生成紧密耦合。在四种大型语言模型基座上的大量实验表明,Kardia-R1在情绪识别准确率、共情度、相关性、角色一致性和安全性方面均持续优于其他方法。我们的数据集与模型将在https://github.com/JhCircle/Kardia-R1开源发布。

0
下载
关闭预览

相关内容

【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
专知会员服务
27+阅读 · 2021年2月2日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员