
,项目主要完成人代表在领奖后合影
,对话全文如下:,
心智观察所:科大讯飞这次作为第一个完成多语种智能语音关键技术及产业化的单位,获得了国家科学技术进步奖一等奖。据闻,这是过去十年人工智能领域首个一等奖。请您总体上介绍一下此项目的基本情况,它的背景和意义。,
刘聪:我们这次得奖项目的核心是智能语音技术,也是讯飞的初心。在这个项目历经的十年间,深度学习领域发展迅速,也代表着人工智能第三次浪潮的快速发展。在这一背景下,此次也是过去十年人工智能领域首个国家科学技术进步奖一等奖。,

,智能语音领域对我们一直很重要。过去十年里,我们一直强调语音作为人类最自然、最便捷的交流方式,是万物互联、人机交互的关键入口。,在人工智能领域里,多语种智能语音广受关注。讯飞虽然是从中文语音技术起家,但我们在过去十年里逐步拓展到更多语种以及方言领域当中,这是一个非常重要的跨越。,国家科学技术进步奖主要考量两大方面,一是提报项目需要有核心技术创新,代表中国从技术原创角度在世界上取得领先。另一方面,与其他奖项不同,国家科学技术进步奖特别强调提报项目的技术创新能否带来大规模的产业化落地。,从技术创新上来看,语音领域涉及合成、识别等技术,本项目主要针对智能语音关键技术产业化中攻克了多项技术难题,例如面向很多复杂场景时,会出现语音识别听不准、语音合成不自然、口语理解歧义等问题,以及当我们从中英文向多语种拓展、走向全球化的时候,出现数据资源稀缺的问题。在持续攻关中,我们提出了四个方面的关键技术创新:复杂语音信号解耦建模关键技术突破、多语种共享建模关键技术突破、语音语义联合建模关键技术突破、语音语义联合建模关键技术突破、国产异构硬件平台训练及推理加速关键技术突破。通过这些技术创新,我们解决了刚刚所说的技术难题,实现了在多个行业领域和智能设备上的应用落地。,总结来说,本项目的意义,第一在于开创引领了我国的语音产业,支撑智能制造产业出海和升级。,第二,通过支持多语言互通,助力民族团结,促进全球语音语言互通,协助“一带一路”建设。在这个过程中,我们很好支撑了北京冬奥会和冬残奥会、进博会、博鳌论坛等国家重大活动。,第三,我们一直强调自主可控,本项目整个构建了自主可控的多语种智能语音技术,以及全球的产业生态。,第四,我们认为技术也要有温度,所以本项目里面的相关技术也持续助力公益,关注关爱我们的弱势群体和特殊人群。,
心智观察所:我稍微补充问一下,请问此项目的发起时间大概是什么时候?讯飞虽然是第一完成单位,但获奖团队不止是讯飞这一家。请问获奖团队的构成如何?,
刘聪:这个项目开始时间大概是在2012年左右,至今差不多是一个十年左右的周期。,除了讯飞作为第一单位牵头,过去十年里在该项目上与我们有紧密合作的还有一些科研机构,如中国科学技术大学、清华大学,讯飞与这两所高校都有联合共建的实验室;还有产业链上的相关单位,如华为终端有限公司、中移(杭州)信息技术有限公司、讯飞医疗、讯飞智元等。,
心智观察所:语音识别研究当中有一个非常有挑战的问题名叫鸡尾酒会效应,请问讯飞是怎么突破这个难题的?然后,能否用一些比较通俗的比喻来向公众解释一下其中的原理。,
刘聪:鸡尾酒会是语音领域一个非常具有挑战性的难题,讨论的是在复杂环境下分辨声音种类的问题。人的听觉系统非常强大,例如你如果参加一个鸡尾酒会的话,周围非常吵闹,酒会里有非常多的噪声、谈话声、音乐声以及酒杯碰撞的声音。此时,如果你想听清楚谁在和你说话,你会将你的听力系统集中过去,在周围很吵的环境下专注于某一个特别定向的人发出的声音,这是人类所具备的一个能力。,在我们做语音识别、语音合成技术时,若要衡量语音识别系统的优劣,就要跟人的水平去做对比。在鸡尾酒会难题里,由于噪声很多,所以对机器来说进行精准的语音识别是非常难的。我从学生时代起就在研究通过单点技术来降噪,此后也尝试过通过多麦克风阵列来提升整个前端的效果。虽然做了很多的工作,但是都只是在循序渐进,很难彻底解决这样的问题。,此次获得国奖的项目中第一个创新点——复杂语音信号解耦建模关键技术突破,其中有两项技术能够比较好地解决鸡尾酒会问题。,我们在降噪里面的一个关键问题是要把语音里面的人声和非人声解构出来,这就叫解耦。对语音来说非常困难,因为语音是一个一维信号。在这个一维信号当中包含了很多的信息,如人声、噪声等。甚至如果再进一步细化,可能还有人声里面的说话人声音,及其音色、内容、性别等信息。,为了解决这个问题,我们首先基于深度学习的框架,针对性地对语音里每一个人的每一种属性做了针对性的建模。建模之后,我们就可以将刚才所说的噪声、人声的各类属性比较清楚地显示出来。通俗来讲,我们可以更加精细地把控语音里面原来混杂在一起的、各种各样的属性。此后,我们就可以更好地对噪声做分离处理,也可以知道语音里的声音是跟说话人还是跟噪声的声音更接近。,同时,如果我们用声学前端多麦克风阵列的多通道信号来采集语音的话,还可以对这个信号的时间、空间等属性进行分离。