皮具市场简介 Tiedemann 发布的数据集让非洲说话也能「机翻」

孩童时候,望哆啦A梦印象比较深的一集就是「翻译年糕」皮具市场简介,当时候就期待本身能吃一块能读懂各栽外语,次次考满分......现在来望,实现这个「幼现在的」有期待了!

Tiedemann 发布的数据集让非洲说话也能「机翻」

赫尔辛基大学说话技术教授Jörg Tiedemann于2021年3月3号宣布,他已经发布了188栽说话的5亿众个翻译句子。

这是一个自动翻译数据集,可用于数据添强翻译。

Tiedemann 发布的数据集让非洲说话也能「机翻」

机器翻译(MT)属于计算机说话的周围皮具市场简介,其钻研借由计算机程序将文字或演说从一栽自然说话翻译成另一栽自然说话。

钻研机器翻译的钻研人员频繁依赖逆向翻译来增补训练数据。

逆向翻译是指,给定源说话句子x,现在的说话句子y, 用训练益的现在的说话到源说话的翻译模型得到假句对(x’, y),添入到平走句对中一首训练。

这栽训练手段也能首到往噪的作用皮具市场简介,即不完善的机翻模型的输出包含了噪声。

在有噪声的情况下,训练(x', y)和(x, y)的翻译模型倘若都能得到y的输出,则升迁了泛化性能。

当更众的单语现在的说话数据被翻译成源说话时,逆向翻译使得深度学习编制 CUBITT 能够“超越人造翻译”。

逆向翻译的有用性取决于现在的说话数据的普及可获得性皮具市场简介,这对于行使人数少的幼语栽来说比较麻烦。

逆向翻译对于检测机器翻译内容的手段也很关键,尤其是现在初创公司将人造智能驱动的「文本生成」技术逐渐商业化。

Tiedemann 发布的数据集让非洲说话也能「机翻」

现在,Tiedemann的论文和数据集已经发布在了GitHub上。

Tiedemann 发布的数据集让非洲说话也能「机翻」

这并不是Tiedemann第一次试图经由过程MT为各栽说话创造一个「地球村」。自2018年以来,Masakhane项现在不息在特意针对NLP中代外不能的非洲说话搜集说话数据并微调说话模型。

Tiedemann 发布的数据集让非洲说话也能「机翻」

这个说话模型取得了不错的凶果,这位德国在读博士就对这个模型给予了一定。

Tiedemann 发布的数据集让非洲说话也能「机翻」

Tatoeba 是一个重大的句子和翻译数据库。Tatoeba 挑供了一个工具,能够让你望到你所必要的单词在句子上下文中是如何行使的。

在2020年10月关于Tatoeba翻译挑衅的有关论文中,Tiedemann写道,“吾们的主要现在的是促进盛开翻译工具和模型的开发,从而更普及地遮盖世界各栽说话。”

有众宽泛?训练和测试数据涵盖500栽说话和说话变体,以及大约3000栽说话对。忍不住唱一句「你望这个数据集它又大又宽」。

按照 Tiedemann 的说法,还有许众做事要做。他在推特上写道: “不论如何,这不会是吾将要发布的末了一套翻译版本”。“很快还会有更众说话从英语转向其它说话... ...”

Tiedemann 发布的数据集让非洲说话也能「机翻」

【编辑选举】皮具市场简介

如何构建以数据为中央的架构 SQLServer数据库缩短有关知识笔记 成为数据工程师必要具备哪些技能? Tableau 商业科学正式发布:基于AI的展望、洞察和自动注释,为营业人员带来重大的数据科学能力 企业数据行使的决策声援阶段

posted on 2021-07-13  作者:admin  阅读量:

栏目导航

Powered by 大众体育app下载 @2018 RSS地图 HTML地图