当前人工智能中的基准测试范式存在许多问题:基准很快饱和,容易过度拟合,包含可利用的注释器工件,评估指标不清晰或不完善,并且不能衡量我们真正关心的东西。我将谈谈我在尝试重新思考我们在人工智能(特别是在自然语言处理)中进行基准测试的方式时所做的工作,包括对抗性的NLI和模因数据集,以及最近推出的Dynabench平台。

https://nlp.stanford.edu/seminar/details/douwekiela.shtml

成为VIP会员查看完整内容
31

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
76+阅读 · 2021年1月7日
GANs最新进展,30页ppt,GANs: the story so far
专知会员服务
43+阅读 · 2020年8月2日
少标签数据学习,54页ppt
专知会员服务
205+阅读 · 2020年5月22日
阿里巴巴ET城市大脑
智能交通技术
6+阅读 · 2018年12月23日
自然语言处理(NLP)前沿进展报告(PPT下载)
VIP会员
相关VIP内容
【Yoshua Bengio】因果表示学习,附视频与72页ppt
专知会员服务
76+阅读 · 2021年1月7日
GANs最新进展,30页ppt,GANs: the story so far
专知会员服务
43+阅读 · 2020年8月2日
少标签数据学习,54页ppt
专知会员服务
205+阅读 · 2020年5月22日
微信扫码咨询专知VIP会员