谷歌开发音频生成模型创造好像真实声音的AI语音

发布时间：2022-10-11 09:53 所属栏目：16 来源：互联网

导读：目前，AI 可以生成多种形式的高质量内容，包括文字（OpenAI 的 GPT 3）、图片（谷歌的 Imagen）、视频（Meta 的 Make-A-Video）等。 AI 生成的音频其实很常见，像生活中用到的语音助手使用自然语言处理声音。OpenAI 曾开发名为 Jukebox 的 AI 音乐系统也令人

　　目前，AI 可以生成多种形式的高质量内容，包括文字（OpenAI 的 GPT 3）、图片（谷歌的 Imagen）、视频（Meta 的 Make-A-Video）等。

　　AI 生成的音频其实很常见，像生活中用到的语音助手使用自然语言处理声音。OpenAI 曾开发名为 Jukebox 的 AI 音乐系统也令人印象深刻。

　　但过去用 AI 生成音频，大都需要人们提前准备转录和标记基于文本的训练数据，这需要耗费极大时间和人力。

　　谷歌还展示 AudioLM 的一般适用性，在被要求继续语音或音乐，并生成在训练期间未看到的新内容时，AudioLM 实现了效果流畅、风格接近的音频生成。

　　特别是，使用 AudioLM 生成的钢琴音乐比使用现有 AI 技术生成的钢琴音乐听起来更自然，后者感觉往往很混乱。

　　为了生成逼真的钢琴音乐，AudioLM 必须在钢琴键被击中时捕捉每个音符中包含的许多微妙的振动，生成的音乐还必须在一段时间内保持其节奏与和声。

　　对此，在卡内基梅隆大学研究计算机生成音乐的教授罗杰·丹嫩伯格（Roger Dannenberg）对媒体提到，AudioLM 在重新创造人类音乐中固有的一些重复模式方面出奇地擅长，或表明它正在学习某种结构的多个层次。

　　AudioLM 经过训练，可以了解哪些类型的声音片段经常一起出现，并且反向使用该过程来生成句子。除了音乐，它还可以模仿原始说话者的口音和节奏，并能学习口语中固有的停顿和感叹等特点。经测试，AudioLM 生成的语音与真实语音几乎无法区分。

　　据了解，AudioLM 远远超出了语音的范围，可以模拟任意音频信号。这可方便扩展到其他类型的音频，以及将 AudioLM 集成到编码器-解码器框架中，以执行文本到语音转换或语音到语音转换等条件任务。

　　然后，更自然的语音生成技术，可以用作视频和幻灯片的背景音轨，帮助改善在医疗等环境下工作的可访问性工具和机器人。

（编辑：ASP站长网）

谷歌开发音频生成模型 创造好像真实声音的AI语音

谷歌开发音频生成模型创造好像真实声音的AI语音