73882必赢网页版(中国)-搜狗百科

喜讯！信息学院两篇论文被语音处理领域顶级会议INTERSPEECH 2020接收

2020年10月25-29日，语音领域的顶级学术会议INTERSPEECH 2020将在中国上海召开。该会议是由国际语音通讯协会(International Speech Communication Association)组织的语音研究领域顶级会议之一，是语音科学与技术领域规模最大、最全面的学术会议。本届会议以“Cognitive Intelligence for Speech Processing”为主题，意在探讨语音处理中的感知智能。INTERSPEECH也是中国计算机学会（CCF）推荐的C类刊物。

与往年相比，今年INTERSPEECH 2020投稿量激增50%，竞争异常激烈！信息科学与工程学院研究团队潜心研究，成功入选两篇论文，这是我院硕士研究生首次在该会议上发表研究论文，表明我院在该研究领域的人才培养、科学研究和国际交流合作在“双一流”建设中得到进一步提升。

论文1

Monolingual Data Selection Analysis for English-Mandarin Hybrid Code-switching Speech Recognition

《中英文混杂语种切换语音识别的单语言数据选择分析》

(Haobo Zhang, Haihua Xu, Van Tung Pham, Hao Huang, Eng Siong Chng)

(张皓博,徐海华, Van Tung Pham,黄浩, Eng Siong Chng)

该论文由2018级计算机系硕士张皓博同学在新加坡南洋理工大学Temasek语音实验室首席研究科学家徐海华博士和我院计算机系黄浩教授共同指导完成。多语种混杂现象在日常交际中频繁出现，成为了语音识别技术众多难题之一。因其灵活多变，地域差异大，并且数据有限，因此如何借助于单语言语料，有效地提升多语种混杂语音识别系统性能，成为一个值得研究的问题。本文对中英文单语言语料的选择方案进行了分析，旨在提升中英文混合语音识别的准确度，证明了添加不同口音的单语言语料不能有效改善结果，还有可能造成语料的不平衡，导致系统偏向于某种语言。文章还验证了合并两种数量充足的单语言语料构建识别系统，无法很好地完成中英文混杂语音识别任务，突出了中英文混杂语料的重要性。文章对构建中英文混杂的语音识别系统，具有较大的指导意义。

论文2

A Lightweight Model Based on Separable Convolution For Speech Emotion Recognition

《一个基于可分离卷积的轻量级语音情感识别模型》

(Ying Zhong, Ying Hu, Hao Huang, Wushour Silamu)

(钟颖，胡英，黄浩，吾守尔·斯拉木)

该论文由2018级计算机系硕士研究生钟颖在电子系胡英副教授指导下完成。论文针对语音情感识别，提出了一种基于深度可分离卷积的轻量级模型，该情感识别网络采用倒残差块提取有效的情感特征，能在拥有少量网络参数量的情况下，极大地提升语音情感识别的效果，这对于数据匮乏的语音情感识别领域来说，是一种探索。本方法利用语音情感数据本身存在的标注不一致性，采用Focal Loss，解决了情感类不平衡和语音样本的情感识别难易程度不一致的问题，进一步提升了模型的泛化性，在应用广泛的IEMOCAP和Emo-DB情感数据库上分别获得71.71%和90.1%的未加权准确性（Unweighted Accuracy, UA)。