今年3月,Suno V3的出现,犹如AI圈的一道春雷。彼时,不仅世间万物复苏,更是在“人人都是音乐家”的口号下,大众对生成式AI的热情高涨。
一石激起千层浪。生产方面,有抓住机会快速销售苏诺的,也有加紧开发自主研发车型的。数百款AI音乐生成产品一次性诞生;在消费者端,更是热情不减,数十万人加入网易云音乐、QQ音乐等平台,注册成为“音乐人”,享受创作、发布音乐的乐趣。
你可以在社交媒体上轻松看到这些帖子:“这套工作流程可以量产高质量的AI歌曲”、“秒级申请音乐人教程”、“用AI音乐分享我的创作收入”。 ..
诚然,AI生成的音乐质量还远远没有达到“听着仙乐耳朵一时亮”的水平。甚至内容过多。供大于求,听多了就会觉得无聊。
但不得不承认的是,AI生成的音乐质量高于大众的普遍水平,其在某些场景下的应用价值和创作价值也不容忽视。
面对AI音乐的冲击,网易云、QQ音乐等平台选择积极应对,专门开设了AI音乐专区。
过去一年多,AI的熊熊烈火已经从文字、图片蔓延到视频、音乐……
现在,轮到播客了。
近年来人们一直在探索利用人工智能来制作播客,但最近谷歌一款产品的一项新功能重新点燃了大家的热情。
NotebookLM是一款于2023年9月推出的人工智能笔记产品,因其最新的文本生成播客功能而受到欢迎。
这不是一个简单的TTS(文本转音频),但它可以将你上传的任何素材转换成轻松愉快的两人对话播客,而且效果非常逼真。
Boss Andrej Karpathy 认为 NotebookLM 是一个非常引人注目的产品形态,甚至有点像当年的 ChatGPT 那样的英雄气概。墨文西东创始人老池也表示,NoteBookLM是新一代笔记产品,AI生成的内容质量非常好。
其实谷歌之前也做过Illuminate,可以利用AI将学术论文/书籍转化为易于理解的播客形式,并且在计算机科学领域做了一定的优化。
该产品于今年 5 月的 Google I/O 大会上首次亮相,现已面向公众开放。
自定义生成功能还需要申请,但是审批很快。
还记得毕业前,我和李牧老师一起读了那些人工智能领域的难论文。如今,学生可以依靠两位配合默契的人工智能老师来讲解重点。
AI播客在国内没有大规模爆发的一个原因是没有类似的中文版产品,但这只是时间问题。
几个月前,Agent Universe也尝试开发Agent来实现类似的效果。整体过程并不复杂,但要达到稳定、真实的效果需要一些工程优化方法。
总体实现思路:提取文件中的纯文本,输入到大模型中。大模型以结构化方式分割并输出,然后使用 TTS 合成每个模型。
这三个关键部分包括:
1、提示词技术要求将输入文本转换成既可读又专业的两人对话。这关系到内容的整体价值。控制不好很容易导致内容笼统或者过于生硬。
2.底层模型的能力,包括遵循指令的能力和结构输出的能力,如果不严格按照JSON格式输出,将直接导致无法合成语音。
3.语音合成技术,TTS的效果将直接影响最终的用户体验。只有选择现实的中国模式,人们才会有倾听的欲望。
一些开发商也进行了复制。这里有一些开源项目可供参考。你可以学习他们的提示词技巧和实现思路。
1.
2.
3.
4.
公众对文本转播客的青睐意味着未来内容创建和分发的新范式。
在不远的将来,任、读两种内容模式渠道将被AI打通。对于内容创作者来说,相同的选题和内容可以轻松转换为图文、短视频、播客等,分发到不同的平台,满足不同渠道粉丝的不同需求。
对于内容消费者来说,固定的知识可以通过AI加工成更符合自己阅读习惯的方式。比如可以用喜剧的方式呈现,也可以用音乐来演唱,甚至是八卦式的相声。用户还可以自定义音色,将其更改为自己喜欢的声音,以实现更加个性化的声音。
这种多元化、个性化的内容体验不仅会提高用户的满意度和参与度,也将推动内容产业的创新和发展。
随着技术的不断进步,可以预见,更丰富、更便捷、更智能的内容生态即将到来。
评论(0)