younger027 最近的时间轴更新
younger027

younger027

V2EX 第 599697 号会员,加入于 2022-10-31 11:23:37 +08:00
younger027 最近回复了
28 天前
回复了 iAjue 创建的主题 程序员 我的个人相册,想收获点小星星
真刑啊
@Raynard 为什么不推荐 ocbc 啊 大佬
听博士的。
战略性插眼,学习方案
62 天前
回复了 EagerTo 创建的主题 程序员 今天是 1024。
节日快乐
131 天前
回复了 spotsung 创建的主题 程序员 关于影视二创和搬运的
@spotsung 就这一整套逻辑来说,目前模型+python 可以完成(已经实验过),成本不会很高。但是有几个问题哈。
1.提出的音频质量如何,这个很影响转文字的质量,据我实验中文视频的错误率比英文会高很多,比如中文名,多音字。所以你可能需要些技术,降噪?去回音?
2.大模型的翻译(中--》英,韩,日)质量都不高,google 的付费翻译接口,也只是个平均值的效果。
3.目前 tts 的效果确实不错,声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。
4.我尝试过音轨合并,然后合成到原来的视频上,这一部很难,效果不好。主要是 1.换语言后,句子发音长短不一样。2.整体合并的效果很不好,听起来很别扭。(我使用 python 包搞的,如果你的效果好的话,也可以分享下。)

基本我经历的就这么几个问题,你可以试试看。毕竟不动手,啥问题也没有。动手了,问题和我也不一定一样。
133 天前
回复了 spotsung 创建的主题 程序员 关于影视二创和搬运的
@vacuitym 音频转文字吗?开源的模型有试过吗?
直接 cf R2 走起就好了 免费
@zhutianjingtu 你是真会算啊 xd
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1402 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 17:32 · PVG 01:32 · LAX 09:32 · JFK 12:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.