AI音乐生成的主要技术路线分析 - 问答集锦

最佳答案由匿名用户编辑于2023/06/21 13:36

现在行业里有三种 AI 音乐生成的主要技术路线。

第一种是基于音乐规则模板和算法调优的方案，这是市场上能够看到的大部分技术方案。它的优势是比较容易快速地产出产品，稳定性高。它的劣势是很难取得进一步的效果突破，因为它是基于规则的，也就是说由制作模板的人决定它生成内容质量的天花板；第二种是基于音频输入和输出的音乐生成，它的优势是有海量的数据可以训练。由于数据的规模比较庞大，人们对这个模型效果的要求也就不那么高，这样比较容易进行算法移植。它的劣势是需要大量的计算资源。同时，从产出的效果看，其音乐的结构性是比较差的，可控性也比较弱。因为它最终的成品是无法修改的；第三种解决方案是基于符号的音乐生成。它的优势是生成的效果可控性比较强，一开始对资源的要求比较低。当然它也存在自己的天然劣势，即标注的数据难度比较大，且直接可用的数据规模比较小。所以它对于模型的结构要求、效果要求比较高，在起步的阶段要积累较长时间，储备的研究周期也比较长。同时，它对于模型创新的要求也比较高，这意味着需要研究者耐心地进行数据的标注和模型的迭代优化。但只要输出的效果达标，就基本没有其它负面问题。

目前，音乐算法对比语音、图片和文本算法有较大的区别。换言之，当前解析算法还没有实现。例如语音算法可以使用声码去控制生成的内容，但音乐并未细化到时间部的控制算法。又例如音乐数据包含了多个轨道、多个乐器、不同的节奏和音高等音乐元素，而且不同类型的音乐数据有不同的特征和规律，目前解析算法的通用性是非常难做到这一点的。同时，人们日常会接触到的音乐数据包含时间和节律上的特征，它们之间的相互关系与单纯的语音相比有更多特征信息，比如包含丰富的语义和情感信息，像歌词、曲调、音乐风格，这些维度就算在超自然的语音合成和多情感的文本生成领域都是比较难解决的问题。这会导致生成内容的结构性和空间的问题难以解决，比如对于特定音色的增加和删减。因此，建议优先考虑第三种方案。如果音乐解析的问题未来能够得到解决，那么当前所提到的第二种端到端的解决方案可能没有任何优势。但由于第二种方案对于模型本身的要求是比较低的，对于有一定人力和资源可以去长期投入的较大型的公司而言，其有算力的优势，因此这些公司主要采用后面这两种方案同步进行。

而从 AI 音乐生成的技术框架流程来看，其可以输入一些故事描述或者歌曲的风格、氛围的场景等虚拟标签，也可以输入文本、图片或者视频等多模态内容作为指导，模型会基于这些输入依次进行歌词生成、旋律生成，也就是先生成简谱、然后再生成和弦，然后再生成编曲，生成作品。链路是模拟创作一首音乐的路程，它的速度会更快，兼顾到的信息量更足。以企业文化主題曲为例，只需要把员工手册输入到模型里，根据员工手册去解析出押韵的核心价值观作为歌词，然后依据歌词生成旋律，这也是有意思的事情。

对于 AIGC 音乐生成模型，目前还在持续做前沿的研究和实验。对比文本生成模型，音乐生成模型的特点就是结构性和音乐性，比如引入相对位置编码。因为音乐有很强的重复性、意境性，其内容是按照前奏、主歌、副歌等这样的结构进行的，而第二段主歌和第一段主歌是强相关的，如果模型无法学习到这里面的相关性，最后输出的内容就会存在混乱的感觉，因此其它的优化也是从不同的角度优化音乐的结构性。

参考报告

中国文化元宇宙AIGC发展研究报告：《文化元宇宙评论》（内刊特辑）.pdf
- 查看报告