1
LDa 2023-10-24 11:02:35 +08:00
天 这个太自然了!
|
2
passerby233 2023-10-24 11:04:26 +08:00
棒!
|
3
maocat 2023-10-24 11:06:18 +08:00 via iPhone
虽然是痴心妄想,但我还是想问,开源吗/dog
|
5
8X96ZltB8D7WggD7 2023-10-24 11:14:35 +08:00
训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧
|
7
qweruiop 2023-10-24 13:01:38 +08:00
op 开源下呗,学习学习。。。
|
8
xming 2023-10-24 13:30:36 +08:00
英语能行吗
|
9
jifengg 2023-10-24 13:31:05 +08:00
中文效果很好,继续关注
|
10
wpyfawkes 2023-10-24 13:38:55 +08:00
发音挺自然,但是断句和停顿不是那么自然.😂
期待楼主更加牛 X 的版本. |
11
shadio 2023-10-24 13:52:02 +08:00 1
语音接近真人,但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗,方便用户后续微调。
|
12
linshuizhaoying 2023-10-24 14:23:39 +08:00
就这个语气一直都是很低沉的。。。其他表现还可以的
|
13
Metre 2023-10-24 14:43:19 +08:00
前几天看了 heygen ,看完之后我就不想让我小孩学习外语了。。。
|
14
isSamle 2023-10-24 16:00:05 +08:00
这很容易被利用吧,骚扰电话+获取录音+AI 生成+各种非法使用
|
15
zoharSoul 2023-10-24 16:12:16 +08:00
可以当成 tts 用吗?
|
16
asrpub 2023-10-24 16:21:42 +08:00 via Android
角色用的是固定的 prompt 吧?
|
17
zagfai 2023-10-24 18:56:30 +08:00
说不来粤语 嘿嘿
|
18
Simon95 OP @shadio 估计支持 ssml 难度比较大,因为有上下文理解能力,就是会根据文本信息和声音信息自己生成情绪,语气等
|
24
starcode 2023-10-24 20:26:25 +08:00
可以合作合作,我有一个录音的 APP ,后续需要录音转文字 API 和文字转录音 API 等。
|
25
yanyao233 2023-10-24 20:36:10 +08:00
帅啊!
|
26
bihui 2023-10-24 21:34:53 +08:00
您用了别人的开源技术吗?
|
31
jianchang512 2023-10-25 00:27:29 +08:00
这个不错,正找相关的开源项目呢,没找到合适的。
facebook 的 https://github.com/facebookresearch/seamless_communication 对中文效果似乎很不好。 用于影视翻译配音领域,前景大大的 |
32
Simon95 OP @jianchang512 多语言怎么讲呢,说实话我不太感冒,感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。
|
33
youthfire 2023-10-25 00:49:16 +08:00 via iPhone
之前用过一个国外开源的, 缺点就是中文语音有国外腔。实际上相比 TTS ,这类虽然更自然,离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果,应该早晚会作为 whisper 的一部分提供 api 收费服务。
|
34
unii23i 2023-10-25 09:22:46 +08:00
不错啊,之前用国外的生成语音说话很别扭,这个真多了
|
35
siknet 2023-10-25 10:02:47 +08:00
断字断句好像有点问题
你试试这句 新西兰比澳大利亚通过率高,有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间 |
36
Simon95 OP @siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。
|
37
OneMan 2023-10-25 11:19:23 +08:00
支持英语吗
|
38
Sylarlong 2023-10-25 13:39:56 +08:00
这个太厉害了,点赞
|
39
shuzhi123 2023-10-25 16:39:51 +08:00
这个太厉害了,点赞
|
40
sanebow 2023-10-26 09:33:39 +08:00 via iPhone
纯外行,请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别,有什么代表性 paper 可以阅读了解吗
|
42
1044523901 2023-10-26 22:22:39 +08:00
效果不错,干倒语音生成 TTS 厂商。
|
43
fenglingyu 2023-10-27 10:40:47 +08:00
很厉害
|
44
DanielNg23 2023-10-27 21:03:42 +08:00
太牛了!要不要来我们这边打一下黑客马拉松😊,线上/线下均可参加😄,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
|
45
blackboar 2023-10-30 18:39:14 +08:00
感觉可以做电诈供应商啊哈哈
|
46
zoharSoul 2023-12-18 21:45:24 +08:00
@Simon95 #22 并发怎么样啊 大佬 有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少
|
47
Miller5991 2023-12-27 13:25:49 +08:00
试了一下感觉还不错,值得鼓励
|
48
Miller5991 2023-12-27 13:26:26 +08:00
op 还会持续迭代吗?感觉还是有点不太自然,不过换气很流畅
|
49
irrwood 359 天前
感觉很棒啊!
|
50
Simon95 OP @Miller5991 已经更新了,有兴趣可以试试
|
51
xljiulong2031 288 天前
楼主现在用不了了
|