您当前的位置是:  首页 > 技术 > 企业通信 > 技术 > 语音通信 > 技术动态 >
  首页 > 技术 > 企业通信 > 技术 > 语音通信 > 技术动态 > Google应用神经网络开发音频编码器,不只压缩音频还能抑制噪音

Google应用神经网络开发音频编码器,不只压缩音频还能抑制噪音

2021-08-16 16:02:09   作者:   来源:CTI论坛   评论:0  点击:


  SoundStream是第一个神经音频解编码器,模型能够同时压缩音频并降低噪音,可在低位元率运作良好
  Google发表最新将人工智慧应用在音频解编码器的研究,释出端到端神经解编码器SoundStream,这是一个应用神经网络 的音频解编码器,可以提供高音质的音频,并且支援清楚的语音、有杂音和回声的语音,甚至是混杂音乐、语音和环境音的音频,Google提到,SoundStream是第一个可以处理语音和音乐的神经网络 解编码器,可以在智慧型手机上即时执行。
  音频解编码器用于有效率地压缩音频,以减少储存和网络频宽需求,而理想的情况,音频解编码器的存在,应该要让使用者无感,包括无法察觉解码後的音频,与原始音频间存在差异,而且解编码的过程,也不能产生可察觉的延迟。
  市面上以及Google的各种影音服务,大量使用了音频解编码器,像是Opus和增强型语音服务(Enhanced Voice Services,EVS)。Opus是一种多功能语音和音频解编码器,支援从6 kbps到510 kbps的位元率,已经被Google用于视频会议平台Meet,还有串流媒体服务YouTube等应用程式中。而EVS则是3GPP标准化机构所开发,是针对行动电话所开发的解编码器,和Opus相同,是能够处理多种位元率的多功能解编码器。
  这两种解编码器虽然可以在中低位元率中表现出色,但是在极低位元率,像是小於等於3 kbps的情况,音质就会急转直下,Google提到,过去人类利用专业知识,以及增加压缩演算法的效率,来最佳化音频的处理,但最近研究人员开始使用机器学习来代替人工设计,以资料驱动的方法学习解编码音频。
  Google发布最新的端到端神经解编码器SoundStream,其主要技术便是使用神经网络 ,由编码器、解码器和量化器组合而成,所有这些都经过端到端训练。编码器会将输入的音频,串流为编码讯号,接着使用量化器对其进行压缩,并且使用解码器将信号转换回音频。
  研究人员提到,SoundStream使用了神经音频合成领域中,目前最先进的解决方案,透过训练判别器(Discriminator),计算对抗性和重建损失函式的组合,让重建的音频听起来就像是未压缩的原始音频,进而提供高品质音频输出。
  经过训练後,解码器和编码器可以分别在单独的客户端运作,以提高网络传输高品质音频的效率。SoundStream处理音频的效率非常好,特别是在低位元率的情况,研究人员解释,SoundStream使用3 kbps位元率所提供的音频品质,超过使用12 kbps位元率的Opus,以及9.6 kbps的EVS,位元率是这些解编码器的三分之一到四分之一,这代表SoundStream可以使用更小的频宽,提供类似的音频品质。
  在早前,Google发表了基于回归网络 的Lyra音频解编码器,而与SoundStream比起来,SoundStream仍然优于Lyra当前的版本,研究人员也提到,在传统音频处理工作管线中,压缩和增强使用不同模组进行,但这样的方法会增加系统延迟。而Google采取不同的策略,将压缩和增强功能综合在同一个模型中,能够同时进行压缩和背景降噪,但又不增加延迟。
  Google表示,SoundStream是将机器学习技术,应用在音频解编码器中重要的一步,比目前最先进的解编码器Opus和EVS效果更好,而且只需要部署一个可扩展的模型。SoundStream会与下一版本的Lyra一起发布,藉由整合SoundStream与Lyra,开发人员可以利用现有的Lyra API和工具,来提供更好的音质。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业