推广 热搜： 公司快速金中国上海企业未来政策教师系统

AI声音克隆教程

日期：2024-11-17 作者：caijiyuan caijiyuan 评论：0 移动：http://fabua.ksxb.net/mobile/news/514.html

核心提示：大家好，我是 Jack。因 ChatGPT、Stable Diffusion 让 AI 在文本、图像生成领域火出了圈。但 AI 在生成方面的能力，可不仅如此，

大家好，我是 Jack。

AI声音克隆教程

因 ChatGPT、Stable Diffusion 让 AI 在文本、图像生成领域火出了圈。

但 AI 在生成方面的能力，可不仅如此，音频领域也出现了很多优秀的项目。

我用我本人的音频数据，训练了一个 AI 模型，生成了几段歌曲，效果已经在我最新一期的视频中展示了，感兴趣的可以看下：

视频、教程制作不易，跪求三连支持，

勿用技术做恶，必须放在第一个来说。

请勿用该技术从事诈骗等违法行为，请遵守《互联网信息服务深度合成管理规定》等法律法规。

本教程仅供交流学习使用，同时，本人也不提供任何人的训练好的音频模型。

视频里所使用的技术是 so-vits-svc，是音频转音频，属于音色转换算法，支持正常的说话，也支持歌声的音色转换。

项目不提供任何人的音频训练模型，所以想要体验，。

显卡建议使用 N 卡，且显存 8G 以上，我的显卡是 RTX 2060 S，训练自己的模型大概用了 14 个小时。

训练数据很关键，需要准备至少 1 个小时的音频，越多高质量的音频数据，效果越好。

比如我的本次训练，就是使用了我往期视频的音频数据，数据时长 1 个小时。

我家里的电脑是 Windows，所以本教程以 Windows 为例进行讲解。

我将项目所需要的代码、环境、工具，进行了打包，可以一键运行：

下载地址（网盘提取码：qi2p）：

当然，也可以直接用作者开源的代码直接部署：

本项目不支持文本转音频，如果需要文本转音频，可以移步看看这个：

训练数据、还有预测推理的数据，都必须是。

也就是说，不能包括背景音、伴奏、合声等，所以无论是训练和预测，都需要对数据进行处理。

这里用到的工具是 UVR5，我提供的整合包里包含了这个工具。

在 Windows 下可以直接使用，打开软件，按照如下配置：

运行即可分离人声和伴奏：

然后再按照如下配置，去除合声：

有 Vocals_Vocals 后缀的音频就是处理后的，这个音频就可以用来训练。

不过因为音频太长，很容易爆显存，可以对音频文件进行切片，这个整合包里也提供了音频切分工具 Audio Slicer，直接运行 slicer-gui.exe。

填写输入路径，填写输出路径，其它参数都默认即可，这样你就会得到切分好的音频段。

在项目的 so-vits-svc-4.0/dataset_raw 目录下创建一个文件夹，比如我的是 jackcui_processed，将处理好的数据放到里面：

这样数据的准备工作，手动配置的部分就完成了。

接下来可以直接运行我提供的整合包里的脚本 1、数据预处理.bat。

这个脚本就是按照步骤，运行各个 py 脚本：

大约跑个几分钟，就能处理完成，处理完毕后，会在 datset/44k 下生成一个文件夹，里面的数据如下图所示：

直接运行 2、训练.bat 即可开启训练。

如果你的显卡够好，可以增加 batch_size 提高训练速度，对应的配置文件在 configs/config.json 文件里。

这个训练时间很长，大概需要几个小时的时间。

推理预测同理，新运行 3、训练聚类模型.bat 生成数据 pt 文件。几分钟即可跑完。

然后修改 app.py 里的这一行：

训练好的模型存放在了 logs/44k 目录下，这里改为你训练好的模型地址，以及对应的配置文件，最后是第三步生成的 pt 文件路径。

记住这里 app.py 必须改好，否则第四步会报错。

最后运行 4、推理预测.bat 文件。

程序会直接开启一个 webui，将开启的 url，直接复制到浏览器地址栏中打开即可。

就是一个简单的 Web 页面，里面的参数，可以直接使用默认的，放入一个音频，即可转换音色，很简单，这里就不展示了。

确认流程都跑通后，可以试着调整一些参数，个人影响太大，主要还是看训练数据，也就是用软件分离的干声质量。

最后也再强调一下，

我的训练数据，只用了往期视频的音频文件，数据丰富度很差，都是叙事的语调，缺少高低音的歌唱数据。

所以效果上，高低起伏的变化少了，听起来就是，全是技巧，莫得感情。

但是如果用于普通对话的音色转换，绝对是够用了。

视频结尾也展示了一个惊艳一些的效果，歌手的数据就丰富很多了，所以效果更好。

最近来了一些新关注我的小伙伴，简单做个自我介绍。

90 后，帝都算法工程师，985 小硕，热爱 coding，多年互联网大厂从业经验。

Github 轻度用户，中国区top100，开源了多个大型项目和教程，Star & Fork 35k+，帮助了数以万计的读者。

我的个人微信公众号，经常第一时间推送人工智能相关技术的最新进展、技术教程。还有深度学习等专业基础知识，Python基础等。

欢迎关注我的：

想要加AI声音克隆交流群的小伙伴，可以关注我的个人微信公众号。

关注后回复：，即可拉你进微信交流群，与志同道合的小伙一起玩vits。

本文地址：http://fabua.ksxb.net/news/514.html 海之东岸资讯 http://fabua.ksxb.net/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• 明确0到2级辅助驾驶系统 “人机共驾”法律属性	• iPhone 17系列价格曝光：仅一款不涨价 Pro版更
• 管庄回收茅台酒！管庄茅台酒回收！	• 北京到陶乐物流专线价格,货到付款
• 解读Solana最新技术路线图：锚定“互联网资本市	• 国泰海通发布新一代全AI智能APP灵犀
• 新加坡地道特色平价美食，好吃不踩雷	• 上海UPS蓄电池回收
• 云边端协同：虚拟电厂的“神经网”革命	• 高金食品与远方好物达成战略合作，让高品质“真

翡翠杠杆思维，2025必	【信息速递】北京大学
从“蹲下去找茬”到“	省第十三届少儿艺术花
李连杰自曝常被网友挖	重磅！赴美旅游要交15
擅造风口的卡萨帝冰箱	泰安唯一参赛选手！这
逝者｜许倬云生前最	皇马中场核心遭低价挖
早安北京0804：注意防	贯彻中央城市工作会议
第十三届海峡青年荟·	广西通报：“亮证女”
【信息速递】北京大学	罕见的豆瓣9.0，不愧
《扫毒风暴》卢少骅最	华米OV新款大折叠集体
山西金融：上半年支持