在 Windows 11 WSL 上使用 Fish Speech 进行 AI 模拟与合成语音

在这篇博客中，我将详细介绍如何在 Windows 11 的 WSL（Windows Subsystem for Linux）环境下，设置并运行 Fish Speech 来进行 AI 语音模拟和合成。我们将从环境配置、依赖安装到最终运行 WebUI 的每一个步骤详细讲解。

Contents

1. 安装 WSL 及 Linux 发行版

首先，确保你的 Windows 11 设备上已经启用了 WSL 并安装了所需的 Linux 发行版。

步骤 1：创建虚拟环境

进入 WSL 的终端，首先安装 conda，然后创建一个新的 Python 3.10 环境：
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```
在激活虚拟环境后，安装所需的 PyTorch 版本。确保选择合适的 CUDA 版本（此处为 cu121）：
```
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```

步骤 2：克隆 Fish Speech 源代码

克隆 Fish Speech 的 GitHub 仓库：

git clone https://github.com/fishaudio/fish-speech.git

为了提高模型的运行效率，可以安装 Triton Windows 编译加速器。通过以下命令安装：

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

Fish Speech 依赖于 sox 和 ffmpeg 来进行音频处理。在 WSL 的 Ubuntu 或 Debian 环境中，运行以下命令来安装：

sudo apt install libsox-dev ffmpeg

在所有的依赖和库安装完成后，可以启动 WebUI 界面来进行语音合成。确保你位于 Fish Speech 源代码路径下，运行以下命令启动 WebUI：

python tools/webui.py

启动后，可以通过浏览器访问本地的 Web 界面，来上传文本并合成语音。

通过上述步骤，你应该已经成功配置并运行了 Fish Speech 的 WebUI 服务。该服务可以让你轻松地进行 AI 语音的模拟与合成。利用 Python 环境和必要的音频处理工具，Fish Speech 能够生成高质量的语音文件，特别适合语音项目开发者和研究人员使用。

希望这篇博客能帮助你顺利完成 Fish Speech 的安装和配置。如果遇到任何问题，可以在评论区留言，或者访问 Fish Speech GitHub 项目页面了解更多信息。