做了一个自然语音生成的 AI 模型，大家提点意见

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 430 天前的主题，其中的信息可能已经有所发展或是发生改变。

自己做了一个语音生成的网站，www.zideai.com
不是普通的文字转语音，支持克隆声线，并且生成出来的是自然语音，就是没有机械感。
语音模型是自己写的，自己训练的
和大模型结合做了个 Demo ，感觉这种交互模态不错，起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下，但部署的 GPU 有限，有可能进不去。
用的 webrtc 直连 GPU ，延迟在 3s 左右，后面再优化语音模型可以做到对话零延迟。
优势：
1. 接近于真人的自然发声，包括停顿，韵律等。
2. 可以用一段 3s 的语音克隆声线，视频里有展示。
3. 全中文数据训练的，所以说话没有老外的感觉。
4. 模型可以支持多语言，就是用日语的声音生成中文的语音（暂时还没训练）。
缺点：
1. 生成可能还不太稳定，声线容易跑偏。
2. 很耗 GPU ，是传统语音生成的很多倍。
后续：
训练成本太高了，一个人做吃不消。。。不知道有没有前景，可以的话出一些硬件。比如智能音箱？和手办对话？大家给点意见。

第 1 条附言 · 2023-10-25 10:41:38 +08:00

因为自然语音和之前传统 tts 有较大使用上区别，很多参数是不能直接设定的，比如音调，断句，停顿等。只能类似 GPT 一样给 Prompt ，输入的句子要规范一下，空格，逗号这些非文字符号模型会认为是提示要停顿。
系统还在测试阶段，使用习惯肯定也不一样，大家有问题可以提出来，我稍后整理下做个教程。

语音

生成

模型

GPU

51 条回复 • 2024-03-14 15:24:27 +08:00

LDa

2023-10-24 11:02:35 +08:00

天这个太自然了！

passerby233

2023-10-24 11:04:26 +08:00

棒！

maocat

2023-10-24 11:06:18 +08:00 via iPhone

虽然是痴心妄想，但我还是想问，开源吗/dog

Simon95

2023-10-24 11:08:08 +08:00

@maocat 我也想开，但是和大佬们的没法比，主要是数据比较多而已。。。

8X96ZltB8D7WggD7

2023-10-24 11:14:35 +08:00

训练成高的化，多买点显卡，本地训练不行吗，比云 GPU 便宜很多吧

Simon95

2023-10-24 11:18:34 +08:00

@scp3041 买不起，百万起的东西。

qweruiop

2023-10-24 13:01:38 +08:00

op 开源下呗，学习学习。。。

xming

2023-10-24 13:30:36 +08:00

英语能行吗

jifengg

2023-10-24 13:31:05 +08:00

中文效果很好，继续关注

wpyfawkes

2023-10-24 13:38:55 +08:00

发音挺自然,但是断句和停顿不是那么自然.😂
期待楼主更加牛 X 的版本.

shadio

2023-10-24 13:52:02 +08:00

语音接近真人，但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗，方便用户后续微调。

linshuizhaoying

2023-10-24 14:23:39 +08:00

就这个语气一直都是很低沉的。。。其他表现还可以的

Metre

2023-10-24 14:43:19 +08:00

前几天看了 heygen ，看完之后我就不想让我小孩学习外语了。。。

isSamle

2023-10-24 16:00:05 +08:00

这很容易被利用吧，骚扰电话+获取录音+AI 生成+各种非法使用

zoharSoul

2023-10-24 16:12:16 +08:00

可以当成 tts 用吗?

asrpub

2023-10-24 16:21:42 +08:00 via Android

角色用的是固定的 prompt 吧？

zagfai

2023-10-24 18:56:30 +08:00

说不来粤语嘿嘿

Simon95

2023-10-24 19:31:36 +08:00

@shadio 估计支持 ssml 难度比较大，因为有上下文理解能力，就是会根据文本信息和声音信息自己生成情绪，语气等

Simon95

2023-10-24 19:32:18 +08:00

@zoharSoul 就是 tts ，就是应用场景估计和传统的有区别，需要好好想想

Simon95

2023-10-24 19:33:04 +08:00

@zagfai 小众方言难做啊，我就是说粤语的，配音没听出来一口广普味？

zoharSoul

2023-10-24 19:52:42 +08:00

@Simon95 #19 感觉用作听书不错啊, 就是不知道速度和价格怎么样

Simon95

2023-10-24 20:12:10 +08:00

@zoharSoul 速度实时没问题，最后价格一个小时语音估计要两块钱左右，现在是免费的。

zoharSoul

2023-10-24 20:17:18 +08:00

@Simon95 #22 明白了, 到时候说不定有机会用用 hah

starcode

2023-10-24 20:26:25 +08:00

可以合作合作，我有一个录音的 APP ，后续需要录音转文字 API 和文字转录音 API 等。

yanyao233

2023-10-24 20:36:10 +08:00

帅啊！

bihui

2023-10-24 21:34:53 +08:00

您用了别人的开源技术吗？

antkites

2023-10-24 22:42:28 +08:00

@Simon95 大佬，太厉害了，不过还是多问一句能开源吗，学习学习，嘿嘿

Simon95

2023-10-24 23:24:48 +08:00

@antkites 等后面安排吧，目前生成的还不太稳定。

OneMan

2023-10-25 00:14:10 +08:00

@Simon95 有联系方式吗，合作聊聊

Simon95

2023-10-25 00:26:52 +08:00

@OneMan 微信 nonamehorse

jianchang512

2023-10-25 00:27:29 +08:00

这个不错，正找相关的开源项目呢，没找到合适的。
facebook 的 https://github.com/facebookresearch/seamless_communication
对中文效果似乎很不好。

用于影视翻译配音领域，前景大大的

Simon95

2023-10-25 00:34:16 +08:00

@jianchang512 多语言怎么讲呢，说实话我不太感冒，感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。

youthfire

2023-10-25 00:49:16 +08:00 via iPhone

之前用过一个国外开源的，缺点就是中文语音有国外腔。实际上相比 TTS ，这类虽然更自然，离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果，应该早晚会作为 whisper 的一部分提供 api 收费服务。

unii23i

2023-10-25 09:22:46 +08:00

不错啊，之前用国外的生成语音说话很别扭，这个真多了

siknet

2023-10-25 10:02:47 +08:00

断字断句好像有点问题

你试试这句

新西兰比澳大利亚通过率高，有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间

Simon95

2023-10-25 10:32:39 +08:00

@siknet 断句没有预处理的，如果没有标点或者空格隔开的话，模型根据语义自动断句。有标点空格模型可能会知道有断句，但是也不不一定会断，总之比较玄幻，只能提示。

OneMan

2023-10-25 11:19:23 +08:00

支持英语吗

Sylarlong

2023-10-25 13:39:56 +08:00

这个太厉害了，点赞

shuzhi123

2023-10-25 16:39:51 +08:00

这个太厉害了，点赞

sanebow

2023-10-26 09:33:39 +08:00 via iPhone

纯外行，请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别，有什么代表性 paper 可以阅读了解吗

Simon95

2023-10-26 09:53:02 +08:00

@sanebow 这是不同的技术分支，起源是 AudioLM 为代表的一系列论文

1044523901

2023-10-26 22:22:39 +08:00

效果不错，干倒语音生成 TTS 厂商。

fenglingyu

2023-10-27 10:40:47 +08:00

很厉害

DanielNg23

2023-10-27 21:03:42 +08:00

太牛了！要不要来我们这边打一下黑客马拉松😊，线上/线下均可参加😄，来线下能提供 7 天住宿顺便来大理到处玩玩⛰️，最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g

blackboar

2023-10-30 18:39:14 +08:00

感觉可以做电诈供应商啊哈哈

zoharSoul

2023-12-18 21:45:24 +08:00

@Simon95 #22 并发怎么样啊大佬有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少

Miller5991

2023-12-27 13:25:49 +08:00

试了一下感觉还不错，值得鼓励

Miller5991

2023-12-27 13:26:26 +08:00

op 还会持续迭代吗？感觉还是有点不太自然，不过换气很流畅

irrwood

359 天前

感觉很棒啊！

Simon95

354 天前

@Miller5991 已经更新了，有兴趣可以试试

xljiulong2031

288 天前

楼主现在用不了了