Suno V3 横空出世，引发 AI 音乐生成热潮，质量却有待提高

今年3月，Suno V3的出现，犹如AI圈的一道春雷。彼时，不仅世间万物复苏，更是在“人人都是音乐家”的口号下，大众对生成式AI的热情高涨。

一石激起千层浪。生产方面，有抓住机会快速销售苏诺的，也有加紧开发自主研发车型的。数百款AI音乐生成产品一次性诞生；在消费者端，更是热情不减，数十万人加入网易云音乐、QQ音乐等平台，注册成为“音乐人”，享受创作、发布音乐的乐趣。

你可以在社交媒体上轻松看到这些帖子：“这套工作流程可以量产高质量的AI歌曲”、“秒级申请音乐人教程”、“用AI音乐分享我的创作收入”。 ..

诚然，AI生成的音乐质量还远远没有达到“听着仙乐耳朵一时亮”的水平。甚至内容过多。供大于求，听多了就会觉得无聊。

但不得不承认的是，AI生成的音乐质量高于大众的普遍水平，其在某些场景下的应用价值和创作价值也不容忽视。

面对AI音乐的冲击，网易云、QQ音乐等平台选择积极应对，专门开设了AI音乐专区。

过去一年多，AI的熊熊烈火已经从文字、图片蔓延到视频、音乐……

现在，轮到播客了。

近年来人们一直在探索利用人工智能来制作播客，但最近谷歌一款产品的一项新功能重新点燃了大家的热情。

NotebookLM是一款于2023年9月推出的人工智能笔记产品，因其最新的文本生成播客功能而受到欢迎。

这不是一个简单的TTS（文本转音频），但它可以将你上传的任何素材转换成轻松愉快的两人对话播客，而且效果非常逼真。

Boss Andrej Karpathy 认为 NotebookLM 是一个非常引人注目的产品形态，甚至有点像当年的 ChatGPT 那样的英雄气概。墨文西东创始人老池也表示，NoteBookLM是新一代笔记产品，AI生成的内容质量非常好。

其实谷歌之前也做过Illuminate，可以利用AI将学术论文/书籍转化为易于理解的播客形式，并且在计算机科学领域做了一定的优化。

该产品于今年 5 月的 Google I/O 大会上首次亮相，现已面向公众开放。

自定义生成功能还需要申请，但是审批很快。

还记得毕业前，我和李牧老师一起读了那些人工智能领域的难论文。如今，学生可以依靠两位配合默契的人工智能老师来讲解重点。

AI播客在国内没有大规模爆发的一个原因是没有类似的中文版产品，但这只是时间问题。

几个月前，Agent Universe也尝试开发Agent来实现类似的效果。整体过程并不复杂，但要达到稳定、真实的效果需要一些工程优化方法。

总体实现思路：提取文件中的纯文本，输入到大模型中。大模型以结构化方式分割并输出，然后使用 TTS 合成每个模型。

这三个关键部分包括：

1、提示词技术要求将输入文本转换成既可读又专业的两人对话。这关系到内容的整体价值。控制不好很容易导致内容笼统或者过于生硬。

2.底层模型的能力，包括遵循指令的能力和结构输出的能力，如果不严格按照JSON格式输出，将直接导致无法合成语音。

3.语音合成技术，TTS的效果将直接影响最终的用户体验。只有选择现实的中国模式，人们才会有倾听的欲望。

一些开发商也进行了复制。这里有一些开源项目可供参考。你可以学习他们的提示词技巧和实现思路。

公众对文本转播客的青睐意味着未来内容创建和分发的新范式。

在不远的将来，任、读两种内容模式渠道将被AI打通。对于内容创作者来说，相同的选题和内容可以轻松转换为图文、短视频、播客等，分发到不同的平台，满足不同渠道粉丝的不同需求。

对于内容消费者来说，固定的知识可以通过AI加工成更符合自己阅读习惯的方式。比如可以用喜剧的方式呈现，也可以用音乐来演唱，甚至是八卦式的相声。用户还可以自定义音色，将其更改为自己喜欢的声音，以实现更加个性化的声音。

这种多元化、个性化的内容体验不仅会提高用户的满意度和参与度，也将推动内容产业的创新和发展。

随着技术的不断进步，可以预见，更丰富、更便捷、更智能的内容生态即将到来。