亚马逊采用新方式来处理地区语言差异

【天极网网络频道】6月13日消息，有些人可能会认为，让支持多种语言(包括西班牙语、德语和日语)的Alexa“听懂”方言是小菜一碟，但事实并非如此。据亚马逊的研究人员称，英式英语和美式英语之间的鸿沟非常之大，以至于经常需要从头开始训练机器学习模型。

亚马逊采用新模型来处理地区语言差异

Alexa理论上应该能够使用已有的知识引导语言训练。这就是为什么亚马逊的科学家们正在研究一种技术，这种技术可以找出客户的需求主题，比如音乐、天气或运动，并识别出与特定领域无关的语言。

亚马逊的研究人员在计算语言学协会北美分会上发表的论文中，描述了他们的工作。亚马逊Alexa人工智能高级应用科学经理Young Bum Kim写道：“域名分类的多任务训练具有挑战性的一个原因是，对同一域名的请求在不同地区可能看起来大相径庭。例如，对餐馆域名的请求在孟买的餐馆名称将与在伦敦的餐馆名称大不相同，尽管顾客要求相同的服务，像地址信息、菜单信息、预订等。在某些案例中，当跨区域的请求更一致时，几个不同的地区特定模型的输出可以相互加强，提高了准确性。”

亚马逊采用新模型来处理地区语言差异

该团队的域分类器同时执行多个任务，主要是学习一种语言的统计模型，该模型捕捉跨区域的一致性，并在通用和地区特定模型的输出上学习不同的分类。重要的是，注意机制根据输入给出了不同语言环境特定模型的输出的不同侧重点，这样当输入数据依赖于语言环境时，它将其大部分权重分配给单个语言环境特定模型，并忽略输出其他特定于语言环境的模型。

为了确定在运行时应该接受“特殊处理”的域，研究人员在训练时将特定于区域的模型的输出组合成单个向量，其中权重较大的输出对向量最终值的贡献大于权重较小的输出。然后，将向量与独立于区域设置的模型的输出连接起来，并将其传递给另一个网络层进行域分类。

在美国、英国，印度和加拿大四种英语变体的实验中，与单独训练的模型相比，研究人员的模型准确度提高了18%、43%、116%和57%。

此前，如果要确保Alexa语音助手能够很好的理解语言变体，就需要针对每一种语言变体进行重新的训练，而亚马逊研究人员所创造的这种新的语音识别训练方法，意味着为现有语言的新变体构建模型的工作量将大大减少。