6月4日-10日,国际声学、语音与信号处理会议ICASSP 2023(全称:International Conference on Acoustics, Speech and Signal Processing)在希腊罗德岛举办。在本次会议上,腾讯游戏公共研发运营体系(CROS)的GVoice携全球首次提出的混合架构的子带(subband)Neural Kalman滤波算法(GVoice NKF)亮相,目前该技术已成为Github 社区今年最受欢迎的回声消除算法之一。
ICASSP是全世界规模最大、最全面的声学、语音和信号处理方面的国际会议,也是语音技术领域最具影响力的顶级国际会议之一。本次会议上,来自全球各地的学者、应用厂商代表共聚一堂,分享语音技术领域的最新研究成果,交流技术创新和落地场景应用,探讨全球语音技术发展趋势。
在这一最前沿技术的国际舞台上,腾讯游戏GVoice内核算法负责人杨栋介绍了GVoice NKF算法的研究背景、研究过程及最新应用成果,吸引了众多与会者围绕算法展开讨论。其中,声学领域泰斗级专家Gerald Enzner教授对这一算法技术突破给予了高度评价,并与杨栋深入交流。杨栋表示,在工业界,好的回声消除算法需要满足非线性失真对线性模型的影响尽量小,双讲过程中尽量保持ERLE和SDR等指标,模型复杂度越低越好,现实环境下面具备较好的回声路径的跟踪能力,模型的泛化能力要好、做到无超参等要求。
而GVoice NKF从学术角度首次提出并验证了Kalman滤波可以用数字信号处理(MB)和数据驱动(DD)混合架构完成回声消除任务,验证了数字信号处理框架指导数据驱动模型可以有效降低神经网络模型复杂度。这一算法用较少的数据就可以得到泛化能力超强的模型,并且系统性解决了贝叶斯类型自适应滤波器算法的重收敛的问题。
目前,围绕GVoice NKF算法的论文《基于神经网络的低复杂度卡尔曼滤波器自适应回声消除算法》(Low-Complexity Acoustic Echo Cancellation with Neural Kalman Filtering)已被会议收录。同时在Github 社区中,GVoice NKF算法也受到极大关注与认可,短时间内已经获得116枚star,收藏数量名列第三,在原创算法中排名第二,且呈现出持续快速增长的状态,已成为Github 社区2023年最受欢迎的回声消除算法之一。多名行业人士表示,GVoice NKF未来将成为学术界工业研究的热点。
GVoice NKF具有极强应用空间 助力制定及落地行业语音标准
在实际应用中,GVoice NKF算法框架的扩展性和性能都优于其他传统类算法,能够解决更复杂的问题。例如,远端信号自相关矩阵病态导致non-uniqueness问题会让收敛速度变慢;基于MMSE传统算法的链路复杂且效果一般,面对干扰和突变信号的鲁棒性不强等。在这些问题中,GVoice NKF仅需改变两个向量维度,就可以沿用单通道NKF框架扩展成统一解决方案,仅需少量数据即可训练一个鲁棒性强的线性模型,因此多通道回声消除可以十分容易纳入到本框架下。
近年来,移动游戏内的语音交流是玩家社交的刚需,从实时语音、语音消息到语音识别等功能,都已成为游戏厂商的关注重点。GVoice NKF算法可以提供小队语音、语音消息、语音转文字、语音同传、文明语音等功能,能够支持1万名玩家在同一个语音房间内互相交流,在UE4、Unity、Cocos、Native等平台均有不错的表现与反馈,目前已接入腾讯旗下的《王者荣耀》、《和平精英》、《天涯明月刀手游》、《英雄联盟手游》等多款游戏。
除游戏领域外,GVoice NKF算法还被写入高通、联发科、Intel等多款CPU芯片,助力制定及落地行业的游戏语音标准。
游戏科技亮相顶级学术会议,持续释放外溢价值
此次,腾讯游戏GVoice NKF登上ICASSP 2023这一顶级学术会议,代表着其背后的游戏技术在学术领域进一步得到广泛认可。如今,游戏技术所拥有的可交互、高仿真、强沉浸、实时渲染等特性,已经成长为一个独立的技术新种群,并在更多领域中得以运用。这也使得游戏的技术创新和社会价值在全球范围内愈发被重视。
而早在去年,中科院研究团队就发表了《游戏技术–数实融合进程中的技术新集群》报告。报告指出,电子游戏突出的趣味性掩盖了它的科学属性,游戏与前沿科技一直互相促进,在彼此共生中形成新的社会生产力。
未来,伴随着游戏技术的不断进步,以及对游戏更多可能性的探索,游戏一定会融入更多经济发展与社会生活之中,成为“超级数字场景”,释放更大的科技力量和更为丰富的价值。