注册登录后全站资源免费查看下载
您需要 登录 才可以下载或查看,没有账号?立即注册
×
PilotTTS 是一款基于大语言模型(LLM)的文本转语音系统,采用“简化但高效”的架构设计,在完全开源组件基础上,通过高质量数据工程实现了接近业界顶级水平的语音生成效果。相比依赖复杂闭源流程的传统 TTS 系统,PilotTTS 更强调开放性、可控性与高质量训练数据构建。 该系统不仅在说话人相似度与文本内容准确率方面表现出色,还支持丰富的情绪与副语言控制,使生成语音更加自然、生动且富有表现力。
下载地址:
核心功能: 高质量文本转语音(TTS):生成自然流畅的人声语音 高相似度语音克隆:精准还原目标说话人音色 内容一致性控制:降低发音错误与文本偏差 情绪控制生成:支持 11 种情绪类别 副语言控制:支持笑声、呼吸、哭泣、咳嗽等表达 全开源数据处理流程:完整公开的数据清洗与标注管线
支持情绪类别: Happy、Sad、Fear、Angry、Surprise、Serious、Concern 等 11 种情绪表达。
支持副语言控制: LAUGH(笑声)、BREATH(呼吸)、CRY(哭泣)、COUGH(咳嗽)等。
技术亮点: 基于 LLM 的语音生成架构 全开源数据工程与处理流程 Seed-TTS 测试集上达到 SOTA 级说话人相似度 降低高质量 TTS 数据构建成本
应用场景: AI 数字人与虚拟主播 有声书与播客生成 游戏角色配音 AI 情感语音交互 视/频旁白与内容创作
|