【笔记】Windows通过整合包训练AI实现音色转换

发表于 2024-09-24 更新于 2026-04-06 阅读次数：

前言

Windows通过整合包训练AI实现音色转换

下载整合包

certutil -urlcache -split -f https://github.com/Feiju12138/so-vits-svc/releases/download/archive/so-vits-svc.zip.001
certutil -urlcache -split -f https://github.com/Feiju12138/so-vits-svc/releases/download/archive/so-vits-svc.zip.002
certutil -urlcache -split -f https://github.com/Feiju12138/so-vits-svc/releases/download/archive/so-vits-svc.zip.003
certutil -urlcache -split -f https://github.com/Feiju12138/so-vits-svc/releases/download/archive/so-vits-svc.zip.004
"C:\Program Files\7-Zip\7z.exe" x so-vits-svc.zip.001

运行WebUI

运行启动webui.bat批处理文件
等待启动完成

启动完成后自动打开浏览器跳转到http://127.0.0.1:7860

准备声音素材

要求总计2小时以上的声音素材
需人生干音作为声音素材，尽可能的去除噪音和混响

传送门

声音文件格式需为.wav格式
声音文件重采样为44100Hz单声道
声音文件需切片，每个切片时长为5~15秒

传送门

切片后的声音文件放置在dataset_raw目录下

+ dataset_raw
  + <voice_name>
    - 01.wav
    - 02.wav

训练

训练->点击识别数据集，等待出现角色名

点击数据预处理等待跑码完成->点击重新生成配置文件等待出现Regenerate config file successfully.表示跑码完成

出现Epoch和step即为正在训练

每隔8000步会自动保存一次模型，保存在logs\44k文件夹下
默认最多保存3个模型，如果超出3个会自动清理旧的创建新的

推理

加载模型

推理->选择模型选择和配置文件->加载模型

音频转换

单个音频上传->上传转换前的音频->音频转换->得到转换后的音频

完成

参考文献

哔哩哔哩——羽毛布団