Computational stylometry studies writing style through quantitative textual patterns, enabling applications such as authorship attribution, identity linking, and plagiarism detection. Existing supervised and contrastive approaches often rely on datasets with spurious correlations, conflating style with topic. Despite the relevance of language modeling to these tasks, the pre-training of modern large language models (LLMs) has been underutilized in general authorship analysis. We introduce an unsupervised framework that uses the log-probabilities of an LLM to measure style transferability between two texts. This framework takes advantage of the extensive CLM pre-training and in-context capabilities of modern LLMs. Our approach avoids explicit supervision with spuriously correlated data. Our method substantially outperforms unsupervised prompting-based baselines at similar model sizes and exceeds contrastively trained models when controlling for topical overlap. Our framework's performance improves with model size. In the case of authorship verification, we present an additional mechanism that increases test-time computation to improve accuracy; enabling flexible trade-offs between computational cost and task performance.


翻译:计算风格学通过量化文本模式研究写作风格,支持作者身份归属、身份关联和抄袭检测等应用。现有的监督学习和对比学习方法常依赖存在虚假相关性的数据集,将风格与主题混为一谈。尽管语言建模与这些任务密切相关,现代大语言模型(LLMs)的预训练在通用作者分析中尚未得到充分利用。我们提出一种无监督框架,利用LLM的对数概率来度量两篇文本间的风格可迁移性。该框架充分利用了现代LLMs广泛的因果语言模型预训练能力和上下文学习特性。我们的方法避免了使用具有虚假相关性数据的显式监督。在模型规模相近的情况下,本方法显著优于基于提示的无监督基线;在控制主题重叠度时,其性能超越了对比训练模型。该框架的性能随模型规模扩大而提升。针对作者身份验证任务,我们提出一种额外机制,通过增加测试时计算量以提高准确率,从而在计算成本与任务性能之间实现灵活权衡。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员