Muyan-TTS— 开源文本转语音模型，零样本语音合成

在未来的数字时代，一款革命性的技术悄然降临——“墨焰之声”（Muyan-TTS），它如同一位隐形的叙述者，跨越了语言与声音的边界。这不仅是一个技术突破，更是一扇通往无限想象世界的大门。借助于百万小时播客精华的滋养，它学会了模仿与创造，无需拘泥于特定的声音，墨焰之声能在眨眼之间，用任何你想象的声音讲述故事。

在这片由声音编织的梦幻之地，每一本书、每一段历史，甚至是最私密的日记，都能被赋予独一无二的生命力。它，是孤独旅者的深夜电台，是探险家的地图，是梦想家的画布。通过零样本语音合成的魔法，只需一丝灵感，便能创造出媲美真人的情感交流，让文字跳跃成耳边轻语，或山河壮阔。

墨焰之声，不仅仅是技术的里程碑，它是连接过去与未来，现实与幻想的桥梁。在这个故事里，每一个听众都是创作者，每一次聆听都是一次全新的旅程。跨越界限，体验前所未有的听觉盛宴，让我们一起，揭开墨焰之声的神秘面纱，探索声音的无限可能。

muyan-tts是一款专为播客场景打造的开源文本转语音（tts）模型。该模型经过超过10万小时的播客音频数据预训练，能够实现零样本语音合成，无需大量目标说话人的语音数据即可生成高质量语音。muyan-tts支持说话人适配，允许进行个性化语音定制。它的合成速度非常快，仅需0.33秒就能生成1秒的音频，非常适合实时应用。此外，muyan-tts能够自然连贯地合成长篇内容，如播客和有声书，支持本地部署和api使用，方便集成到各种应用中。

Muyan-TTS的主要功能　　零样本语音合成：利用少量参考语音和文本，无需大量目标说话人数据即可生成高质量语音。　　说话人适配：通过少量目标说话人的语音数据进行微调，实现个性化语音定制。　　快速生成：仅需0.33秒即可生成1秒音频，适用于实时和批量生成长语音内容。　　长内容连贯合成：能够自然连贯地合成长篇内容，如播客和有声书。　　离线部署友好：支持本地推理，确保数据隐私和低延迟。　　Muyan-TTS的技术原理　　框架设计：基于GPT-SoVITS框架，使用预训练的Llama-3.2-3B作为语言模型（LLM），结合SoVITS模型进行音频解码。LLM负责将文本和音频token对齐，生成中间表示，而SoVITS模型则将中间表示解码为音频波形。　　数据处理：数据集包含超过10万小时的播客音频数据，经过多阶段处理，包括数据收集、清洗和格式化，以确保高质量和多样性。使用自动语音识别（ASR）模型将音频转录为文本，将音频嵌入量化为离散token，形成平行语料库。　　预训练与微调：LLM在平行语料库上进行预训练，学习文本和音频token之间的关系。通过监督微调（SFT），使用少量目标说话人的语音数据进一步优化模型，提高语音合成的自然度和相似度。　　解码器优化：基于VITS基础模型作为解码器，减少幻觉问题，提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调，进一步提升合成语音的保真度和表现力。　　推理加速：通过高效的内存管理和并行推理技术提高推理速度，降低延迟。支持API模式，自动启用加速功能，适合实时应用。　　Muyan-TTS的项目地址　　GitHub仓库：　　HuggingFace模型库：　　arXiv技术论文：　　Muyan-TTS的应用场景　　播客和有声书：生成长篇内容，自然连贯，节省录制时间。　　视频配音：快速合成英文脚本配音，适配不同角色。　　AI角色和语音助手：生成特色角色语音，提供自然交互体验。　　新闻播报：高效将文本转语音，适合智能设备播报。　　教育和游戏：生成教学语音和游戏旁白，提升学习和娱乐体验。　　

以上就是Muyan-TTS—开源文本转语音模型，零样本语音合成的详细内容，更多请关注其它相关文章！

阅读全文

扫码关注“ 多特资源库 ”

上一篇：Embodied Reasoner— 浙大联合阿里等机构推出的具身交互推理模型

下一篇：OpenMath-Nemotron— 英伟达开源的数学推理系列模型