作为知国际专业会议,INTER-NOISE
大会每年在美洲、欧洲和非洲以及亚太地区轮流举行,主题聚焦在世界各地的噪音控制问题上,并且因其专业性和覆盖范围而有着巨大影响力——比如1972年在华盛顿首次召开时,美国噪音控制法案(US
N C A)正在审议之中,与会人员的积极交流和呼吁推动了后续法案的通过。
本届大会继续由
I-INCE 发起,美国噪声控制工程学会(INCE-USA)和 P A (巴西)共同主办,美国声学学会、SAE
国际、西班牙声学学会和韩国噪声与振动工程学会参与联合举行。虽然因疫情原因,今年的活动只能以线上方式进行,但大会还是进行了精心策划和准备——包括在首届会议活动地点举办仪式,纪念自
1972 年首届国际噪声大会以来噪声控制取得的 50 年进展,以及通过聚焦的议题展望和推测未来 50
年可能取得的成就,会议主题也定为“噪声控制的下一个 50 年”。
2篇技术论文:突破多个音频核心技术问题
作为会议比较重要的事项之一,本届大会按照已有的严格文章审核流程和标准——由位细分领域的专家匿交叉审核,比较终再由 T C 比较终选拔——收录了来自 25 个和地区的作者的 635 篇学术论文。
易云信音频验室被
INTER-NOISE 2022 收录的两篇论文分别是《一种基于神经络的针对瞬时噪声控制的低计算复杂度噪声抑制方法》(A N
N B N S M T N C
L-C C)和《一种使用梅尔频谱和频谱通量的基于卷积神经络的时音乐检测方法》(A
R- M D M C N N
M-S S F)。
(来源:INTER-NOISE 2022)
首篇论文聚焦在
AI 抑制“瞬间噪声”的问题,“瞬时噪声”是指键盘声、敲门声等这类突发性的声音。易云信音频验室针对 RTC
场景,成功研发落地了轻量级的、适合全平台终端的 AI 音频降噪算法。该算法使用了化的谐波相关性(M
H-C),和独创的损失函数(L F),在一个 RNN(R N
N)模型上进行训练。在终端运行时,算法结合了易云信自研的 NENN 推理框架,在大幅提升降噪效果(SNRI S
Q)的同时,保持了一个极低的运算复杂度。整体而言,易云信研发的 AI
音频降噪算法同时兼顾了算法效果和计算开销,不仅适合时处理,还能落地到各种运算能力有限的终端设备中,可以应用在包括会议场景、语聊房场景等目的仅为语音通话的场景中。目前,该算法已经应用在易
POPO、易有道乐读等具体的场景,并取得良好的效果。
第二篇论文聚焦在利用卷积神经络算法对“有用信号”的检测和减损。通常来说,在
WRTC 在音频处理中,大量的算法都是针对 S 信号进行设计,整体是一个 S EH 系统,但是在
RTC 的场景中,有用信号(D S)不仅仅只有
S,还有一种常见信号就是音乐(比如音乐主播、音乐教学等场景中)。易云信落地国内行业中首个 AI
音乐训练检测模型,这是结合了自研的帧间频域特征和一个轻量级神经络,训练出了一个音乐检测率高、鲁棒性强、且计算开销小,适合在各个端侧落地的 AI
模型;通过对环境声音的检测,区分出音乐和非音乐场景,并基于此先验信息,对 RTC 中音频 APM
处理进行有针对性的调整,在保证语音信号质量的同时,大幅提高音乐信号的质量,可以应用在包括音乐教学、音乐直播等目标传输信号包含音乐的场景中。
从行业角度看,RTC
行业发展至今已经有二十年左右的时间,从小众产品变成几乎人人都会接触到的巨大产业,自然也带来激烈的市场竞争。随着行业逐渐成熟,粗放的市场环境过去之后,谁能带给用户更好的体验谁就具有核心竞争力,技术的重要性越来越突出。另外,时音视频技术个性化场景要求越来越高,应对的环境也愈加复杂,传统的技术已经很难有大的化空间,所以时音视频企业倾向于成立
AI 验室或 AI 项目组,专门负责 AI 在音视频中的应用研究,为客户提供更加便捷、易用、专业的音视频服务。
作为行业内首批音视频 AI 验室之一,易云信音频验室自成立之初便秉承“把身临其境的音频感受带给用户”的使命感,不断把握前沿技术方向,攻克业内比较难的技术瓶颈,将行业高尖技术应用到产品中,进而现用户体验的全面升级。