KristonAILab与新加坡国立大学联合发布论文语音识别实现突破
原标题:KristonAILab与新加坡国立大学联合发布论文语音识别实现突破近日,快商通KristonAILab和新加坡国立大学联合发表的论文《ModelingCode-SwitchLanguagesUsingBilingualParallelCorpus(使用平行语料...
原标题:Kriston AI Lab与新加坡国立大学联合发布论文 语音识别实现突破近日,快商通Kriston AI Lab和新加坡国立大学联合发表的论文《Modeling Code-Switch Languages Using Bilingual Parallel Corpus(使用平行语料为中英文语码转换建模)》被第58届计算语言学年会 ACL 2020录用,论文介绍了一种通过机器学习算法建立语言模型的方法,主要用于解决中英混合文本数据缺失问题,是语音识别领域对多语种切换语音识别的首次突破。
ACL是计算语言学和自然语言处理领域最重要的顶级会议,被CCF与清华共同列为顶级A类会议。今年,ACL共接收到超过3000篇投稿,虽未公布录取率,但依照历史平均录取率23.7%来看,被收录的论文代表了人工智能领域的世界领先水平。
多语种切换语音识别现状:需求火热,技术难突破
随着全球化的演进,多语言通信成为越来越普遍的现象。例如在新加坡等东南亚地区,英语作为大部分人的第一外语,会被自然而然地穿插在以中文为主的日常交流中。相对应地,对多语种切换语音识别也成为当下火热的需求。
然而,多语种切换语音识别一直是语音领域面临的重要挑战之一,最主要的原因,是因为多语种切换数据的缺失。
语音识别系统训练,需要语音和文本两方面的数据。通常,多语种切换的表达多在口语交流中出现,因此,文本形式的多语种切换表达资源匮乏。
使用平行语料为中英文语码转换建模
快商通Kriston AI Lab瞄准海外痛点需求,提出了一种基于注意力机制的双语语言建模算法(BLAM),该算法综合考虑两种语言的词序列上下文关系以及两种语言间的语法差异。具体地,文章定义了两种损失函数,分别用于对单一语言的语法进行约束以及对多语种切换表达的语法进行约束。然后将两种约束用于训练基于注意力机制的深度神经网络模型。
这种方法,是现阶段语音识别领域对多语种切换的首次突破,其算法具有以下优点:
1、两种语言均可以作为主语语言,语码转换时两种语言的比例不影响语音识别的性能;
2、语言模型混淆度(PPL)相对目前最好的多语种切换语言模型建模算法能降低20%以上,语音识别词错率相对目前最好的多语种切换语音识别算法能降低25%以上;
3、该算法可用于多语种切换的规范化,即,将两个语种混杂的文本规范化为统一的语种表达;
该算法可进一步扩展,用于句子生成以及机器翻译。
内蒙古自治区政府门户网站 评论文章 彰显中国特色社会主义文化优势
□内蒙古党校哲学教研部、内蒙古自治区中国特色社会主义理论体系研究中心 郭冬梅核心提示●在五千多年文明发展中孕育的中华优秀传统文化,在党和人民伟大斗争中孕育的革命文化和社会主义先进文化,积淀着中华民族最深层 ...
内蒙古自治区政府门户网站 评论文章 文化自信要讲清楚三个问题
□中国社会科学院马克思主义研究院、内蒙古自治区中国特色社会主义理论体系研究中心 任洁核心提示●文化自信是推动中华民族伟大复兴的精神力量,中华民族伟大复兴为文化自信提供坚实的基础,文化自信与中华民族伟大复兴 ...
□籍海洋世间万物,生命最宝贵;百业兴旺,安全最重要。当前,我区疫情防控取得阶段性重要成效、生产生活逐渐恢复往日生机、重大项目重大工程按下“快进键”……越是这样的关键时刻,越要绷紧安全生产这根弦,抓实安全风险防范各 ...
生物识别技术企业BioCatch完成1.45亿美金C轮融资,宜信联手贝恩资本参与投资
生物识别安全科技创新领军者BioCatch近日宣布完成总额高达1.45亿美金的C轮融资,投资方包括老股东宜信金融科技产业基金(以下简称“宜信产业基金”)、私募基金巨头贝恩资本旗下Bain Capital Tech Opportunities、美国运 ...
4月16日,开放司丝绸之路经济带协调推进处召开会议,研究讨论第13届中青年干部经济研讨会的论文选题,分管司领导应邀参加。处内同志对论文思路框架进行了介绍,分管司领导做了点评,提出论文撰写要紧扣主题、以小见大、立意新 ...