Computational stylometry analyzes writing style through quantitative patterns in text, supporting applications from forensic tasks such as identity linking and plagiarism detection to literary attribution in the humanities. Supervised and contrastive approaches rely on data with spurious correlations and often confuse style with topic. Despite their natural use in AI-generated text detection, the CLM pre-training of modern LLMs has been scarcely leveraged for general authorship problems. We propose a novel unsupervised approach based on this extensive pre-training and the in-context learning capabilities of LLMs, employing the log-probabilities of an LLM to measure style transferability from one text to another. Our method significantly outperforms LLM prompting approaches of comparable scale and achieves higher accuracy than contrastively trained baselines when controlling for topical correlations. Moreover, performance scales fairly consistently with the size of the base model and, in the case of authorship verification, with an additional mechanism that increases test-time computation; enabling flexible trade-offs between computational cost and accuracy.


翻译:计算文体学通过文本中的量化模式分析写作风格,其应用涵盖从身份关联与剽窃检测等法证任务到人文学科中的文学归属判定。监督式与对比式方法依赖于存在伪相关性的数据,常将风格与主题混淆。尽管现代大语言模型(LLM)的因果语言模型(CLM)预训练在AI生成文本检测中已有自然应用,但其在通用作者身份问题中的潜力尚未被充分挖掘。本文提出一种基于LLM广泛预训练与上下文学习能力的新型无监督方法,利用LLM的对数概率度量文本间的风格可迁移性。该方法在控制主题相关性后,显著优于同等规模的LLM提示方法,且准确率超越基于对比训练的基线模型。此外,模型性能与基础模型规模保持较一致的缩放关系;在作者验证任务中,通过增加测试时计算的附加机制可进一步提升性能,从而在计算成本与准确率之间实现灵活权衡。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员