younger027

V2EX 第 599697 号会员，加入于 2022-10-31 11:23:37 +08:00

younger027 提问技术话题好玩工作信息交易信息城市相关

younger027 最近回复了

28 天前

回复了 iAjue 创建的主题 › 程序员 › 我的个人相册,想收获点小星星

真刑啊

29 天前

回复了 sxiaojian 创建的主题 › 加密货币 › USDT 出金比较麻烦，直接用来消费有什么特别好的卡损耗特别低的卡

@Raynard 为什么不推荐 ocbc 啊大佬

56 天前

回复了 felixchen1314 创建的主题 › 程序员 › 各位 AI 程序员们是用 Windows 还是 macOS？

听博士的。

57 天前

回复了 XinPingQiHe 创建的主题 › 程序员 › 有经验的 v 友看看，这个 AI 知识库私有化部署的方案行吗，怎么改进

战略性插眼，学习方案

62 天前

回复了 EagerTo 创建的主题 › 程序员 › 今天是 1024。

节日快乐

131 天前

回复了 spotsung 创建的主题 › 程序员 › 关于影视二创和搬运的

@spotsung 就这一整套逻辑来说，目前模型+python 可以完成(已经实验过)，成本不会很高。但是有几个问题哈。
1.提出的音频质量如何，这个很影响转文字的质量，据我实验中文视频的错误率比英文会高很多，比如中文名，多音字。所以你可能需要些技术，降噪？去回音？
2.大模型的翻译（中--》英，韩，日）质量都不高，google 的付费翻译接口，也只是个平均值的效果。
3.目前 tts 的效果确实不错，声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。
4.我尝试过音轨合并，然后合成到原来的视频上，这一部很难，效果不好。主要是 1.换语言后，句子发音长短不一样。2.整体合并的效果很不好，听起来很别扭。(我使用 python 包搞的,如果你的效果好的话，也可以分享下。)

基本我经历的就这么几个问题，你可以试试看。毕竟不动手，啥问题也没有。动手了，问题和我也不一定一样。

133 天前

回复了 spotsung 创建的主题 › 程序员 › 关于影视二创和搬运的

@vacuitym 音频转文字吗？开源的模型有试过吗？

140 天前

回复了 qbmiller 创建的主题 › 云计算 › 博客图片，原先一直用腾讯 cos. 现在每月扣下行流量钱 10 块多，算下来比服务器都贵了

直接 cf R2 走起就好了免费

145 天前

回复了 xuewei 创建的主题 › 创造者 › 程序员自由创业周记#39：做了一场 13 个月的梦

@zhutianjingtu 你是真会算啊 xd

» younger027 创建的更多回复