As AI systems increasingly assume roles where trust and alignment with human values are essential, understanding when and why they engage in deception has become a critical research priority. We introduce The Traitors, a multi-agent simulation framework inspired by social deduction games, designed to probe deception, trust formation, and strategic communication among large language model (LLM) agents under asymmetric information. A minority of agents the traitors seek to mislead the majority, while the faithful must infer hidden identities through dialogue and reasoning. Our contributions are: (1) we ground the environment in formal frameworks from game theory, behavioral economics, and social cognition; (2) we develop a suite of evaluation metrics capturing deception success, trust dynamics, and collective inference quality; (3) we implement a fully autonomous simulation platform where LLMs reason over persistent memory and evolving social dynamics, with support for heterogeneous agent populations, specialized traits, and adaptive behaviors. Our initial experiments across DeepSeek-V3, GPT-4o-mini, and GPT-4o (10 runs per model) reveal a notable asymmetry: advanced models like GPT-4o demonstrate superior deceptive capabilities yet exhibit disproportionate vulnerability to others' falsehoods. This suggests deception skills may scale faster than detection abilities. Overall, The Traitors provides a focused, configurable testbed for investigating LLM behavior in socially nuanced interactions. We position this work as a contribution toward more rigorous research on deception mechanisms, alignment challenges, and the broader social reliability of AI systems.


翻译:随着人工智能系统日益承担起信任和与人类价值观对齐至关重要的角色,理解其何时以及为何进行欺骗已成为一项关键研究重点。我们提出了“背叛者”——一个受社交推理游戏启发的多智能体模拟框架,旨在探究信息不对称条件下大型语言模型(LLM)智能体之间的欺骗行为、信任形成与策略性交流。少数智能体(背叛者)试图误导多数群体,而忠诚者则必须通过对话和推理推断隐藏身份。我们的贡献包括:(1)将环境建立在博弈论、行为经济学和社会认知的形式化框架基础上;(2)开发了一套评估指标,涵盖欺骗成功率、信任动态和集体推理质量;(3)实现了一个全自主模拟平台,支持LLM基于持久记忆和演化的社交动态进行推理,并兼容异构智能体群体、专项特质和自适应行为。我们在DeepSeek-V3、GPT-4o-mini和GPT-4o上的初步实验(每个模型10次运行)揭示了一个显著的不对称性:如GPT-4o等先进模型展现出更强的欺骗能力,却对他人谎言表现出不成比例的易感性。这表明欺骗技能的提升速度可能快于检测能力。总体而言,“背叛者”为研究LLM在社交细微交互中的行为提供了一个聚焦且可配置的测试平台。我们将这项工作定位为对欺骗机制、对齐挑战及AI系统更广泛社会可靠性的更严谨研究的贡献。

0
下载
关闭预览

相关内容

PyTorch & PyTorch Geometric图神经网络(GNN)实战
专知
10+阅读 · 2019年6月1日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员