日语机构网 学习杂谈 AWS跨语言迁移学习新进展,通过英语模型训练AI日语能力

AWS跨语言迁移学习新进展,通过英语模型训练AI日语能力

AWS发表一篇跨语言迁移学习技术的论文,将具有足够训练资料的语言模型,通过迁移学习转移至较稀少训练资料的语言,AWS过去曾将英语语言处理模型转移至德语,这次则是更进一步,实验将英语转移至日语。

由于欧洲语言和日语之间的字符(character)无法配对,这两种语言之间的转换较为困难,为了解决这个问题,AWS将日语字符和音译的罗马字母一起当作日语系统的输入资料,AWS也执行了额外大量的实验,来找出英语模型的哪些部分可转移至日语。

AWS跨语言迁移学习新进展,通过英语模型训练AI日语能力

AWS的实验中使用了两个公开资料集,比对罗马拼音化日语文字的转移模型和用相同资料训练从头训练的模型,在这两个资料集中,转移模型的F1 score都分别改善了5.9%和7.4%,表示模型更稳固。

AWS英语和日语转换模型的目标是辨识名称实体(entity),或是辨识语句中的名称类别,像是歌曲名称、运动队伍名称或是城市名等。模型的输入资料包含词向量和字符向量两种类型的向量,这些向量是由神经网络生成,将输入的语言资料用向量或是字串表示,这些向量投射到多维度的空间后,能够指出资料之间的相似度,在自然语言理解系统中,像是名称实体辨识器,通常是两个词向量相似度越高,也代表着两种有相似的语意。

而产生字符向量的网络首先会将字词拆分城多个元件,像是两个字母、三个字母等,字符向量空间的相近度能够显示字词子元件的相似度,字符向量通常能够作为词向量有用的补充,因为字符向量可以使机器学习系统,针对不熟悉字词的意义,根据字根、字首和字尾产生的猜测。

在AWS的语言模型中,每个输入词的字符都会分别送入双向长短期循环神经网络(bi-LSTM)中,该网络会依序处理输入资料,因此每一个输出都能够反应之前的输入和输出资料,接着,AWS将该网络输出的字符向量和词向量,一起放入另一个双向长短期循环神经网络中,这个网络按照顺序处理输入语句的单词,产生一个丰富的向量表示输出,因此输出够找出每个输入单词的字根、词缀(affix)、本意和语句中的上下文消息。最后再将该输出资料放到另一个分类实体名称的网络中。

声明:本站内容源于网络,出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,请咨询相关专业人士。 https://www.hnrmb.com/post/69715.html

作者: 日语机构网

上一篇
下一篇
返回顶部