元宇宙路还远，但实时互动的时代已经来了

发布时间：2022-11-09 11:16 所属栏目：15 来源：互联网

导读：2015年的第一届RTC大会，议程里只有一个主会场，一个分论坛和一个WorkShop，参与者不到1000人。声网攒起这场局的时候仅仅成立两年，那时候一个关于实时互动的开发者大会更像一场滞涩的布道。 RTC（Real time communication），翻译过来叫做实时通信，也可以

　　 2015年的第一届RTC大会，议程里只有一个主会场，一个分论坛和一个WorkShop，参与者不到1000人。声网攒起这场局的时候仅仅成立两年，那时候一个关于实时互动的开发者大会更像一场滞涩的布道。

　　RTC（Real time communication），翻译过来叫做实时通信，也可以被理解为实时音视频，这在七年前是一个新词。但风已经吹起，2016年抖音出现，将开始一场与刚完成转型的快手之间的竞争，同年淘宝上线直播功能。短视频与直播电商的大幕几乎是同时拉开的，实时音视频技术则是藏于背后的概念，开始酝酿一场对于社交甚至整个泛娱乐领域产品的全球变革。谷歌、阿里巴巴、陌陌以及快手的身影，紧接着出现在2016年的第二届RTC大会上。

　　对于实时互动曾经的猜想变成了确实的生长空间。七年之后，全球娱乐应用年收入突破100亿美元，全球社交应用年下载量也首次越过70亿次。疫情影响下泛娱乐应用的增长势头迅猛，实时音视频已几乎成为市面上所有产品的基本要素，全球范围内所有泛娱乐产品用户的使用总时长超过了10万亿分钟每月。

　　声网在2020年完成上市，并且在上市招股书中首次公开提出“RTE（Real-Time Engagement）”的概念，后者从2021年开始代替RTC成为这场大会新的名字。

　　“RTE更聚焦用户所需要的共享时空，即俗话说的场景。并且能够达到或者超越线下场景的互动体验和效果，这是RTE真正聚焦的部分，其内涵和外延的范围远远超过了RTC的领域。”声网创始人兼CEO赵斌在今年的RTE大会上表示。

　　从RTC到RTE，也是一条从基础能力到场景化能力进化的道路。曾在最初引领起实时互动技术风潮的声网，也已经建立起一个丰富生态，在RTC赛道的市场占有率达到43.4%，稳居市场第一。泛娱乐领域新的变革，也会从声网的技术革新开始。

　　新的变革

　　全球头部的社交泛娱乐用户的产品里包含直播场景的比例开始超过50%。在全球社交Top100的应用中，有大约20%左右的应用包含RTC实时音视频的能力。“而在互动社交玩法的快速迭代中，一些对于声音层面更细颗粒度的要求开始出现”，声网泛娱乐产品负责人李斯特表示。
　　
　　相比画面，声音是更原生的素材，也更容易左右一种沉浸感的塑造或被破坏。泛娱乐产品的演进是一场对于沉浸感的追逐，最大程度还原真实的听觉感受也引领着声网最新的的技术革新。

　　随着深度学习的发展，当前基于数据驱动的 AI 语音降噪算法发展迅猛。几年前，声网成为首个将 AI 算法全面引入实时互动领域的技术服务商，今年声网在AI降噪技术上取得了突破性进展，已经可以做到对于上百种突发性噪音的有效抑制。

　　与AI降噪相对的是传统的DSP（digital signal processing）算法降噪。后者的工作原理是先用麦克风获取外部噪音，转换成数字信号后主动转换出一个与噪音相反的反向声波来抵消，比如Air Pods或者Bose做的降噪处理一样。但DSP算法降噪的缺点是这个转化再生成反向声波的过程需要时间，这会造成噪音与降噪效果之间产生延迟，在某些对于声音极度严苛的场景——比如冥想——这种噪音的出现会严重影响体验。

　　“常见的电视噪音，开关门或装修的声音，或者玩游戏时手指与屏幕接触的一些声音，我们都有对应的一些算法模型去做有针对性的消除，”李斯特表示。

　　AI降噪相较于DSP算法等传统降噪思路的一大优势是其不依赖于任何假设条件，因此处理非稳态噪声效果显著。这让前者它能有效的降低各种突发式、不持续、甚至不规律的噪声信号。并且作为一种纯软件算法，AI降噪并不依赖于硬件。也就是说，这种降噪能力将会以超低延迟的端上消除模式实现。

　　空间音频领域的技术进步同样令人期待。

　　如何依靠声音来描述位置感，这是在虚拟中塑造出临场感的关键。但空间感并不只是左右声道，声网试图在3D的空间中去重建声音在真实环境下的物理效果，并实现了一些具体的效果。

（编辑：ASP站长网）