V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Simon95
V2EX  ›  分享创造

做了一个自然语音生成的 AI 模型,大家提点意见

  •  2
     
  •   Simon95 · 2023-10-24 10:09:16 +08:00 · 3810 次点击
    这是一个创建于 430 天前的主题,其中的信息可能已经有所发展或是发生改变。
    自己做了一个语音生成的网站,www.zideai.com
    不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
    语音模型是自己写的,自己训练的
    和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
    网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
    用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
    优势:
    1. 接近于真人的自然发声,包括停顿,韵律等。
    2. 可以用一段 3s 的语音克隆声线,视频里有展示。
    3. 全中文数据训练的,所以说话没有老外的感觉。
    4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
    缺点:
    1. 生成可能还不太稳定,声线容易跑偏。
    2. 很耗 GPU ,是传统语音生成的很多倍。
    后续:
    训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。
    第 1 条附言  ·  2023-10-25 10:41:38 +08:00
    因为自然语音和之前传统 tts 有较大使用上区别,很多参数是不能直接设定的,比如音调,断句,停顿等。只能类似 GPT 一样给 Prompt ,输入的句子要规范一下,空格,逗号这些非文字符号模型会认为是提示要停顿。
    系统还在测试阶段,使用习惯肯定也不一样,大家有问题可以提出来,我稍后整理下做个教程。
    51 条回复    2024-03-14 15:24:27 +08:00
    LDa
        1
    LDa  
       2023-10-24 11:02:35 +08:00
    天 这个太自然了!
    passerby233
        2
    passerby233  
       2023-10-24 11:04:26 +08:00
    棒!
    maocat
        3
    maocat  
       2023-10-24 11:06:18 +08:00 via iPhone
    虽然是痴心妄想,但我还是想问,开源吗/dog
    Simon95
        4
    Simon95  
    OP
       2023-10-24 11:08:08 +08:00
    @maocat 我也想开,但是和大佬们的没法比,主要是数据比较多而已。。。
    8X96ZltB8D7WggD7
        5
    8X96ZltB8D7WggD7  
       2023-10-24 11:14:35 +08:00
    训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧
    Simon95
        6
    Simon95  
    OP
       2023-10-24 11:18:34 +08:00
    @scp3041 买不起,百万起的东西。
    qweruiop
        7
    qweruiop  
       2023-10-24 13:01:38 +08:00
    op 开源下呗,学习学习。。。
    xming
        8
    xming  
       2023-10-24 13:30:36 +08:00
    英语能行吗
    jifengg
        9
    jifengg  
       2023-10-24 13:31:05 +08:00
    中文效果很好,继续关注
    wpyfawkes
        10
    wpyfawkes  
       2023-10-24 13:38:55 +08:00
    发音挺自然,但是断句和停顿不是那么自然.😂
    期待楼主更加牛 X 的版本.
    shadio
        11
    shadio  
       2023-10-24 13:52:02 +08:00   ❤️ 1
    语音接近真人,但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗,方便用户后续微调。
    linshuizhaoying
        12
    linshuizhaoying  
       2023-10-24 14:23:39 +08:00
    就这个语气一直都是很低沉的。。。其他表现还可以的
    Metre
        13
    Metre  
       2023-10-24 14:43:19 +08:00
    前几天看了 heygen ,看完之后我就不想让我小孩学习外语了。。。
    isSamle
        14
    isSamle  
       2023-10-24 16:00:05 +08:00
    这很容易被利用吧,骚扰电话+获取录音+AI 生成+各种非法使用
    zoharSoul
        15
    zoharSoul  
       2023-10-24 16:12:16 +08:00
    可以当成 tts 用吗?
    asrpub
        16
    asrpub  
       2023-10-24 16:21:42 +08:00 via Android
    角色用的是固定的 prompt 吧?
    zagfai
        17
    zagfai  
       2023-10-24 18:56:30 +08:00
    说不来粤语 嘿嘿
    Simon95
        18
    Simon95  
    OP
       2023-10-24 19:31:36 +08:00
    @shadio 估计支持 ssml 难度比较大,因为有上下文理解能力,就是会根据文本信息和声音信息自己生成情绪,语气等
    Simon95
        19
    Simon95  
    OP
       2023-10-24 19:32:18 +08:00
    @zoharSoul 就是 tts ,就是应用场景估计和传统的有区别,需要好好想想
    Simon95
        20
    Simon95  
    OP
       2023-10-24 19:33:04 +08:00
    @zagfai 小众方言难做啊,我就是说粤语的,配音没听出来一口广普味?
    zoharSoul
        21
    zoharSoul  
       2023-10-24 19:52:42 +08:00
    @Simon95 #19 感觉用作听书不错啊, 就是不知道速度和价格怎么样
    Simon95
        22
    Simon95  
    OP
       2023-10-24 20:12:10 +08:00
    @zoharSoul 速度实时没问题,最后价格一个小时语音估计要两块钱左右,现在是免费的。
    zoharSoul
        23
    zoharSoul  
       2023-10-24 20:17:18 +08:00
    @Simon95 #22 明白了, 到时候说不定有机会用用 hah
    starcode
        24
    starcode  
       2023-10-24 20:26:25 +08:00
    可以合作合作,我有一个录音的 APP ,后续需要录音转文字 API 和文字转录音 API 等。
    yanyao233
        25
    yanyao233  
       2023-10-24 20:36:10 +08:00
    帅啊!
    bihui
        26
    bihui  
       2023-10-24 21:34:53 +08:00
    您用了别人的开源技术吗?
    antkites
        27
    antkites  
       2023-10-24 22:42:28 +08:00
    @Simon95 大佬,太厉害了,不过还是多问一句能开源吗,学习学习,嘿嘿
    Simon95
        28
    Simon95  
    OP
       2023-10-24 23:24:48 +08:00
    @antkites 等后面安排吧,目前生成的还不太稳定。
    OneMan
        29
    OneMan  
       2023-10-25 00:14:10 +08:00
    @Simon95 有联系方式吗,合作聊聊
    Simon95
        30
    Simon95  
    OP
       2023-10-25 00:26:52 +08:00
    @OneMan 微信 nonamehorse
    jianchang512
        31
    jianchang512  
       2023-10-25 00:27:29 +08:00
    这个不错,正找相关的开源项目呢,没找到合适的。
    facebook 的 https://github.com/facebookresearch/seamless_communication
    对中文效果似乎很不好。


    用于影视翻译配音领域,前景大大的
    Simon95
        32
    Simon95  
    OP
       2023-10-25 00:34:16 +08:00
    @jianchang512 多语言怎么讲呢,说实话我不太感冒,感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。
    youthfire
        33
    youthfire  
       2023-10-25 00:49:16 +08:00 via iPhone
    之前用过一个国外开源的, 缺点就是中文语音有国外腔。实际上相比 TTS ,这类虽然更自然,离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果,应该早晚会作为 whisper 的一部分提供 api 收费服务。
    unii23i
        34
    unii23i  
       2023-10-25 09:22:46 +08:00
    不错啊,之前用国外的生成语音说话很别扭,这个真多了
    siknet
        35
    siknet  
       2023-10-25 10:02:47 +08:00
    断字断句好像有点问题

    你试试这句

    新西兰比澳大利亚通过率高,有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间
    Simon95
        36
    Simon95  
    OP
       2023-10-25 10:32:39 +08:00
    @siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。
    OneMan
        37
    OneMan  
       2023-10-25 11:19:23 +08:00
    支持英语吗
    Sylarlong
        38
    Sylarlong  
       2023-10-25 13:39:56 +08:00
    这个太厉害了,点赞
    shuzhi123
        39
    shuzhi123  
       2023-10-25 16:39:51 +08:00
    这个太厉害了,点赞
    sanebow
        40
    sanebow  
       2023-10-26 09:33:39 +08:00 via iPhone
    纯外行,请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别,有什么代表性 paper 可以阅读了解吗
    Simon95
        41
    Simon95  
    OP
       2023-10-26 09:53:02 +08:00   ❤️ 1
    @sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
    1044523901
        42
    1044523901  
       2023-10-26 22:22:39 +08:00
    效果不错,干倒语音生成 TTS 厂商。
    fenglingyu
        43
    fenglingyu  
       2023-10-27 10:40:47 +08:00
    很厉害
    DanielNg23
        44
    DanielNg23  
       2023-10-27 21:03:42 +08:00
    太牛了!要不要来我们这边打一下黑客马拉松😊,线上/线下均可参加😄,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
    blackboar
        45
    blackboar  
       2023-10-30 18:39:14 +08:00
    感觉可以做电诈供应商啊哈哈
    zoharSoul
        46
    zoharSoul  
       2023-12-18 21:45:24 +08:00
    @Simon95 #22 并发怎么样啊 大佬 有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少
    Miller5991
        47
    Miller5991  
       2023-12-27 13:25:49 +08:00
    试了一下感觉还不错,值得鼓励
    Miller5991
        48
    Miller5991  
       2023-12-27 13:26:26 +08:00
    op 还会持续迭代吗?感觉还是有点不太自然,不过换气很流畅
    irrwood
        49
    irrwood  
       359 天前
    感觉很棒啊!
    Simon95
        50
    Simon95  
    OP
       354 天前
    @Miller5991 已经更新了,有兴趣可以试试
    xljiulong2031
        51
    xljiulong2031  
       288 天前
    楼主现在用不了了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2585 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:40 · PVG 09:40 · LAX 17:40 · JFK 20:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.