成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
5亿个句子,188种语言,Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」!
2021 年 3 月 24 日
新智元
新智元报道
来源:Reddit
编辑:PY,LRS
【新智元导读】
赫尔辛基大学语言技术教授 Jörg Tiedemann 发布了一个数据集,其中包括超5亿个句子,被翻译成188种语言。
孩童时候,看哆啦A梦印象比较深的一集就是「翻译年糕」,那时候就希望自己能吃一块能读懂各种外语,次次考满分......如今来看,实现这个「小目标」有希望了!
赫尔辛基大学语言技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188种语言的5亿多个翻译句子。
这是一个自动翻译数据集,可用于数据增强翻译。
机器翻译(MT)属于计算机语言的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。
研究机器翻译的研究人员经常依靠反向翻译来增加训练数据。
反向翻译是指,给定源语言句子x,目标语言句子y, 用训练好的目标语言到源语言的翻译模型得到伪句对(x’, y),加入到平行句对中一起训练。
这种训练方式也能起到去噪的作用,即不完美的机翻模型的输出包含了噪声。
在有噪声的情况下,训练(x', y)和(x, y)的翻译模型如果都能得到y的输出,则提升了泛化性能。
当更多的单语目标语言数据被翻译成源语言时,反向翻译使得深度学习系统 CUBITT 能够“超越人工翻译”。
反向翻译的有用性取决于目标语言数据的广泛可获得性,这对于使用人数少的小语种来说比较麻烦。
反向翻译对于检测机器翻译内容的方法也很关键,尤其是现在初创公司将人工智能驱动的「文本生成」技术逐渐商业化
。
目前,Tiedemann的论文和数据集已经发布在了GitHub上。
这并不是Tiedemann第一次试图通过MT为各种语言创造一个「地球村」。自2018年以来,Masakhane项目一直在专门针对NLP中代表不足的非洲语言收集语言数据并微调语言模型。
这个语言模型取得了不错的效果,这位德国在读博士就对这个模型给予了肯定。
Tatoeba 是一个庞大的句子和翻译数据库。Tatoeba 提供了一个工具,可以让你看到你所需要的单词在句子上下文中是如何使用的。
在2020年10月关于Tatoeba翻译挑战的相关论文中,Tiedemann写道,“我们的主要目标是促进开放翻译工具和模型的开发,从而更广泛地覆盖世界各种语言。”
有多宽泛?训练和测试数据涵盖500种语言和语言变体,以及大约3000种语言对。忍不住唱一句「你看这个数据集它又大又宽」。
根据 Tiedemann 的说法,还有很多工作要做。他在推特上写道: “无论如何,这不会是我将要发布的最后一套翻译版本”。“很快还会有更多语言从英语转向其它语言... ...”
参考资料:
https://www.reddit.com/r/programming/comments/mao82o/university_of_helsinki_language_technology/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
数据集
关注
88
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。 Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
78+阅读 · 2020年10月13日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
38+阅读 · 2020年6月16日
【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量
专知会员服务
20+阅读 · 2020年5月12日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
14+阅读 · 2020年3月27日
【NAACL 2019 workshop】优化和评估神经语言生成方法 Methods for Optimizing and Evaluating Neural Language Generation,卡内基梅隆大学| Graham Neubig,纽约大学| He He
专知会员服务
4+阅读 · 2019年12月5日
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
Visualizing Missing Surfaces In Colonoscopy Videos using Shared Latent Space Representations
Arxiv
0+阅读 · 2021年6月23日
Multi-Head Attention with Disagreement Regularization
Arxiv
9+阅读 · 2018年10月24日
SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation
Arxiv
5+阅读 · 2018年10月3日
Incorporating Glosses into Neural Word Sense Disambiguation
Arxiv
4+阅读 · 2018年5月21日
Self-Attention with Relative Position Representations
Arxiv
14+阅读 · 2018年3月6日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
数据集
机器翻译
翻译模型
数据增强
噪声
CVPR 2022
相关VIP内容
最新《知识驱动的文本生成》综述论文,44页pdf
专知会员服务
78+阅读 · 2020年10月13日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
专知会员服务
38+阅读 · 2020年6月16日
【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量
专知会员服务
20+阅读 · 2020年5月12日
【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准
专知会员服务
14+阅读 · 2020年3月27日
【NAACL 2019 workshop】优化和评估神经语言生成方法 Methods for Optimizing and Evaluating Neural Language Generation,卡内基梅隆大学| Graham Neubig,纽约大学| He He
专知会员服务
4+阅读 · 2019年12月5日
热门VIP内容
开通专知VIP会员 享更多权益服务
前沿人工智能趋势报告(Frontier AI Trends Report)
【AAAI2026】善始则事半功倍:基于前缀优化的大语言模型推理强化学习
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
音退化问题:基于输入操控的鲁棒语音转换综述
相关资讯
Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准
AI科技评论
10+阅读 · 2019年9月17日
对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠
微软研究院AI头条
7+阅读 · 2019年5月17日
2018年自然语言取得不错的研究有哪些?
人工智能前沿讲习班
4+阅读 · 2019年2月22日
资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)
机器之心
3+阅读 · 2018年11月12日
让翻译人员恐慌的机器翻译系统(附试用地址)
THU数据派
4+阅读 · 2018年3月14日
相关论文
Visualizing Missing Surfaces In Colonoscopy Videos using Shared Latent Space Representations
Arxiv
0+阅读 · 2021年6月23日
Multi-Head Attention with Disagreement Regularization
Arxiv
9+阅读 · 2018年10月24日
SuperDepth: Self-Supervised, Super-Resolved Monocular Depth Estimation
Arxiv
5+阅读 · 2018年10月3日
Incorporating Glosses into Neural Word Sense Disambiguation
Arxiv
4+阅读 · 2018年5月21日
Self-Attention with Relative Position Representations
Arxiv
14+阅读 · 2018年3月6日
大家都在搜
Palantir
反恐
大型语言模型
多域作战
未来战争
朱克爱德华兹家族
突防
机场
蓝牙安全攻防
【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top