近日,中国电子学会公布了2024年度中国电子学会博士/硕士学位论文激励计划的入选名单,我院2022届硕士毕业生任意的学位论文《非自回归语音合成》入选硕士学位论文激励计划,导师为赵洲教授。

作者简介

任意,2019年至2022年硕士就读于浙江大学计算机科学与技术学院赵洲老师实验室。在校期间,他曾获得国家奖学金、百度奖学金、字节奖学计划等荣誉。学术方面,他共发表了30余篇国际顶会,其中第一作者10篇(包括ICML、NeurIPS、ICLR等),研究方向包括语音合成、机器翻译、歌声合成和自动作曲等。目前谷歌学术引用已超7000。他提出的FastSpeech系列论文是业界首个完全并行的端到端语音合成声学模型和文本到波形合成模型,解决了自回归语音合成模型的低速、鲁棒性差和不可控等问题,并达到了领先的自回归语音合成模型的效果。这个工作已在微软、阿里巴巴、字节跳动等国内外互联网公司得到广泛应用和落地,相比旧模型节约一半以上的计算成本,降低推理数倍延迟,同时在英伟达开发者大会(GTC2020)上作为语音合成加速的范例展示。
论文精粹

整体模型结构

文本编码器结构

频谱变分生成器结构
奖项介绍

中国电子学会博士/硕士学位论文激励计划是为贯彻落实新时代人才强国战略,服务科技强国建设,推动电子信息领域的技术进步与创新,促进青年人才成长而设立的。历届入选者在后续学术和科研中发展较快,成绩颇丰。