Widely used evaluation metrics for text generation either do not work well with longer texts or fail to evaluate all aspects of text quality. In this paper, we introduce a new metric called SMART to mitigate such limitations. Specifically, We treat sentences as basic units of matching instead of tokens, and use a sentence matching function to soft-match candidate and reference sentences. Candidate sentences are also compared to sentences in the source documents to allow grounding (e.g., factuality) evaluation. Our results show that system-level correlations of our proposed metric with a model-based matching function outperforms all competing metrics on the SummEval summarization meta-evaluation dataset, while the same metric with a string-based matching function is competitive with current model-based metrics. The latter does not use any neural model, which is useful during model development phases where resources can be limited and fast evaluation is required. Finally, we also conducted extensive analyses showing that our proposed metrics work well with longer summaries and are less biased towards specific models.


翻译:广泛使用的文本生成评价指标要么与较长的文本不起作用,要么无法评估文本质量的所有方面。在本文中,我们引入了称为SMART的新指标,以缓解这些限制。具体地说,我们把判决作为匹配的基本单位而不是象征性,并使用对软匹配候选人和参考判决的匹配功能。候选判决也与源文件中的判决进行比较,以便能够进行依据(例如事实质量)评估。我们的结果显示,我们拟议的指标与基于模型的匹配功能的系统层面相关性超过了SummEval总配对元评价数据集中所有相互竞争的指标,而同一基于字符串的匹配功能与目前基于模型的指数具有竞争力。后者不使用任何神经模型,这种模型在模型开发阶段有用,因为那里的资源有限,需要快速评估。最后,我们还进行了广泛的分析,表明我们拟议的指标与较长的概要很有效,而且不太偏向特定模型。

0
下载
关闭预览

相关内容

Beginner's All-purpose Symbolic Instruction Code(初学者通用的符号指令代码),刚开始被作者写做 BASIC,后来被微软广泛地叫做 Basic 。
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium6
中国图象图形学学会CSIG
2+阅读 · 2021年11月12日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年9月26日
Arxiv
31+阅读 · 2021年6月30日
VIP会员
相关资讯
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium8
中国图象图形学学会CSIG
0+阅读 · 2021年11月16日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium6
中国图象图形学学会CSIG
2+阅读 · 2021年11月12日
【ICIG2021】Latest News & Announcements of the Plenary Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年11月1日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员