评价文件一致性 (Evaluating Document Coherence Modelling) - 专知论文

会员服务 ·

0

Performer · MoDELS · 数据集 · 语言模型化 · Better ·

2021 年 3 月 18 日

Evaluating Document Coherence Modelling

翻译：评价文件一致性

Aili Shen,Meladel Mistica,Bahar Salehi,Hang Li,Timothy Baldwin,Jianzhong Qi

from arxiv, accepted to TACL 2021

While pretrained language models ("LM") have driven impressive gains over morpho-syntactic and semantic tasks, their ability to model discourse and pragmatic phenomena is less clear. As a step towards a better understanding of their discourse modelling capabilities, we propose a sentence intrusion detection task. We examine the performance of a broad range of pretrained LMs on this detection task for English. Lacking a dataset for the task, we introduce INSteD, a novel intruder sentence detection dataset, containing 170,000+ documents constructed from English Wikipedia and CNN news articles. Our experiments show that pretrained LMs perform impressively in in-domain evaluation, but experience a substantial drop in the cross-domain setting, indicating limited generalisation capacity. Further results over a novel linguistic probe dataset show that there is substantial room for improvement, especially in the cross-domain setting.

翻译：虽然预先培训的语言模型(“LM”)在单体合成和语义任务方面取得了令人印象深刻的成绩,但其模拟话语和务实现象的能力却不那么清楚。作为更好地了解其话语建模能力的一个步骤,我们提议一项判决侵入探测任务。我们检查了广泛的事先培训语言模型在这项英语探测任务方面的表现。由于缺乏用于这项任务的数据集,我们引入了新颖的入侵罪检测数据集INSTED,其中包含170,000多份文件,由英国维基百科和CNN新闻文章制成。我们的实验显示,预先培训的LM在主体评估中表现得令人印象深刻,但跨界环境环境却出现大幅下降,这表明一般化能力有限。关于新的语言探测数据集的进一步结果显示,特别是在跨界环境中,有很大的改进空间。

0

相关内容

Performer

【经典书】应用离散结构，568页pdf

专知会员服务

84+阅读 · 2021年5月4日

《行为与认知机器人学》，241页pdf

《行为与认知机器人学》，241页pdf

专知会员服务

54+阅读 · 2021年4月11日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

专知会员服务

14+阅读 · 2020年1月3日

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

专知会员服务

7+阅读 · 2019年12月19日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

Towards Human-Free Automatic Quality Evaluation of German Summarization

Arxiv

0+阅读 · 2021年5月13日

Connecting What to Say With Where to Look by Modeling Human Attention Traces

Arxiv

0+阅读 · 2021年5月12日

Evaluating Gender Bias in Natural Language Inference

Arxiv

0+阅读 · 2021年5月12日

VisualMRC: Machine Reading Comprehension on Document Images

Arxiv

0+阅读 · 2021年5月10日

ExpMRC: Explainability Evaluation for Machine Reading Comprehension

Arxiv

0+阅读 · 2021年5月10日

Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models

Arxiv

0+阅读 · 2021年5月7日

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

Arxiv

3+阅读 · 2020年3月24日

Incremental Reading for Question Answering

Incremental Reading for Question Answering

Arxiv

5+阅读 · 2019年1月15日

Nonparametric Topic Modeling with Neural Inference

Arxiv

3+阅读 · 2018年6月18日

Lessons from the Bible on Modern Topics: Low-Resource Multilingual Topic Model Evaluation

Arxiv

4+阅读 · 2018年4月26日

VIP会员

文章信息

相关主题

语言模型化

相关VIP内容

【经典书】应用离散结构，568页pdf

专知会员服务

84+阅读 · 2021年5月4日

《行为与认知机器人学》，241页pdf

《行为与认知机器人学》，241页pdf

专知会员服务

54+阅读 · 2021年4月11日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

专知会员服务

14+阅读 · 2020年1月3日

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

【综述】文献级机器翻译研究:方法与评价（A Survey on Document-level Machine Translation: Methods and Evaluation）

专知会员服务

7+阅读 · 2019年12月19日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】具身智能体中的复杂人类偏好

无人机如何改变战争？未来战场

【KDD2025】一种新颖的可解释性无监督异常检测模型

深度学习时代的模仿学习：新型分类体系与最新研究进展

相关资讯

NLG任务评价指标BLEU与ROUGE

NLG任务评价指标BLEU与ROUGE

AINLP

21+阅读 · 2020年5月25日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec 精选：基于LSTM的序列推荐实现（PyTorch）

LibRec智能推荐

50+阅读 · 2018年8月27日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Capsule Networks解析

Capsule Networks解析

机器学习研究会

11+阅读 · 2017年11月12日

相关论文

Towards Human-Free Automatic Quality Evaluation of German Summarization

Arxiv

0+阅读 · 2021年5月13日

Connecting What to Say With Where to Look by Modeling Human Attention Traces

Arxiv

0+阅读 · 2021年5月12日

Evaluating Gender Bias in Natural Language Inference

Arxiv

0+阅读 · 2021年5月12日

VisualMRC: Machine Reading Comprehension on Document Images

Arxiv

0+阅读 · 2021年5月10日

ExpMRC: Explainability Evaluation for Machine Reading Comprehension

Arxiv

0+阅读 · 2021年5月10日

Is Incoherence Surprising? Targeted Evaluation of Coherence Prediction from Language Models

Arxiv

0+阅读 · 2021年5月7日

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

Arxiv

3+阅读 · 2020年3月24日

Incremental Reading for Question Answering

Incremental Reading for Question Answering

Arxiv

5+阅读 · 2019年1月15日

Nonparametric Topic Modeling with Neural Inference

Arxiv

3+阅读 · 2018年6月18日

Lessons from the Bible on Modern Topics: Low-Resource Multilingual Topic Model Evaluation

Arxiv

4+阅读 · 2018年4月26日

微信扫码咨询专知VIP会员