在这篇博客中,我将详细介绍如何在 Windows 11 的 WSL(Windows Subsystem for Linux)环境下,设置并运行 Fish Speech 来进行 AI 语音模拟和合成。我们将从环境配置、依赖安装到最终运行 WebUI 的每一个步骤详细讲解。
1. 安装 WSL 及 Linux 发行版
首先,确保你的 Windows 11 设备上已经启用了 WSL 并安装了所需的 Linux 发行版。
-
在 Windows PowerShell 或命令提示符中运行以下命令启用 WSL:
wsl --install
-
安装 Ubuntu 或 Debian 发行版:
wsl --install -d Ubuntu
-
安装完成后,重新启动电脑,并设置 Linux 用户名和密码。
2. 设置虚拟环境并安装 Fish Speech
步骤 1:创建虚拟环境
-
进入 WSL 的终端,首先安装
conda
,然后创建一个新的 Python 3.10 环境:conda create -n fish-speech python=3.10 conda activate fish-speech
-
在激活虚拟环境后,安装所需的 PyTorch 版本。确保选择合适的 CUDA 版本(此处为 cu121):
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
步骤 2:克隆 Fish Speech 源代码
-
克隆 Fish Speech 的 GitHub 仓库:
git clone https://github.com/fishaudio/fish-speech.git
-
进入项目目录:
cd fish-speech
-
使用
pip
安装 Fish Speech:pip3 install -e .
3. 配置编译加速(可选)
为了提高模型的运行效率,可以安装 Triton Windows 编译加速器。通过以下命令安装:
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
4. 安装音频处理工具
Fish Speech 依赖于 sox
和 ffmpeg
来进行音频处理。在 WSL 的 Ubuntu 或 Debian 环境中,运行以下命令来安装:
sudo apt install libsox-dev ffmpeg
5. 启动 Fish Speech WebUI
在所有的依赖和库安装完成后,可以启动 WebUI 界面来进行语音合成。确保你位于 Fish Speech 源代码路径下,运行以下命令启动 WebUI:
python tools/webui.py
启动后,可以通过浏览器访问本地的 Web 界面,来上传文本并合成语音。
6. 总结
通过上述步骤,你应该已经成功配置并运行了 Fish Speech 的 WebUI 服务。该服务可以让你轻松地进行 AI 语音的模拟与合成。利用 Python 环境和必要的音频处理工具,Fish Speech 能够生成高质量的语音文件,特别适合语音项目开发者和研究人员使用。
希望这篇博客能帮助你顺利完成 Fish Speech 的安装和配置。如果遇到任何问题,可以在评论区留言,或者访问 Fish Speech GitHub 项目页面 了解更多信息。
参考资源
- Fish Speech 项目官方文档: GitHub链接
- PyTorch 官方网站: PyTorch
- WSL 官方文档: Microsoft 文档
Comments NOTHING