谷歌开发出从文本生成高保真音乐的人工智能但不策划发布

发布时间：2023-01-29 09:53 所属栏目：16 来源：互联网

导读：人工智能（AI）的发展历程经历过几次热潮，最新一轮即是由DALL-E、ChatGPT等生成式AI引起的热潮。在这一轮，科技巨头们似乎因对伦理相关问题的谨慎，而在与初创公司的竞争中暂落下风。这不是第一个文本生成歌曲的AI系统，此前有爱好者基于Stable Diffusion

　　人工智能（AI）的发展历程经历过几次热潮，最新一轮即是由DALL-E、ChatGPT等生成式AI引起的热潮。在这一轮，科技巨头们似乎因对伦理相关问题的谨慎，而在与初创公司的竞争中暂落下风。

　　这不是第一个文本生成歌曲的AI系统，此前有爱好者基于Stable Diffusion模型制作的Riffusion，谷歌自己的AudioML和人工智能研究机构OpenAI的Jukebox等项目也都可以从文字生成音乐。然而，MusicLM的模型和庞大的训练数据库（280000小时的音乐）使其能制作出作曲特别复杂或保真度特别高的歌曲。

　　谷歌研究人员表明，该系统可以建立在现有旋律的基础上，无论是哼唱、演唱、吹口哨还是在乐器基础上演奏。此外，MusicLM有一个“故事模式”来编程特定时间的风格、氛围和节奏的转变，比如可以采用几个按顺序编写的描述“冥想时间”、“醒来时间”、“跑步时间”来创建一种“故事”叙事旋律。
　　MusicLM 也可以通过图片和标题的组合来指导、生成相应风格的音乐。

　　与许多AI生成器一样，MusicLM也有它的问题，有些作品听起来很奇怪，或者人声往往难以理解。这是因为，MusicLM虽然在技术上可以生成人声，包括合唱和声，但大多数“歌词”内容能勉强听出是英语或听不出是什么语言，由合成声音演唱，听起来像是几位艺术家声音的融合。

（编辑：ASP站长网）

谷歌开发出从文本生成高保真音乐的人工智能 但不策划发布

谷歌开发出从文本生成高保真音乐的人工智能但不策划发布