在 Windows 11 WSL 上使用 Fish Speech 进行 AI 模拟与合成语音

发布于 2024-09-21  156 次阅读


在这篇博客中,我将详细介绍如何在 Windows 11 的 WSL(Windows Subsystem for Linux)环境下,设置并运行 Fish Speech 来进行 AI 语音模拟和合成。我们将从环境配置、依赖安装到最终运行 WebUI 的每一个步骤详细讲解。

1. 安装 WSL 及 Linux 发行版

首先,确保你的 Windows 11 设备上已经启用了 WSL 并安装了所需的 Linux 发行版。

  1. 在 Windows PowerShell 或命令提示符中运行以下命令启用 WSL:

    wsl --install
  2. 安装 Ubuntu 或 Debian 发行版:

    wsl --install -d Ubuntu
  3. 安装完成后,重新启动电脑,并设置 Linux 用户名和密码。

2. 设置虚拟环境并安装 Fish Speech

步骤 1:创建虚拟环境

  1. 进入 WSL 的终端,首先安装 conda,然后创建一个新的 Python 3.10 环境:

    conda create -n fish-speech python=3.10
    conda activate fish-speech
  2. 在激活虚拟环境后,安装所需的 PyTorch 版本。确保选择合适的 CUDA 版本(此处为 cu121):

    pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

步骤 2:克隆 Fish Speech 源代码

  1. 克隆 Fish Speech 的 GitHub 仓库:

    git clone https://github.com/fishaudio/fish-speech.git
  2. 进入项目目录:

    cd fish-speech
  3. 使用 pip 安装 Fish Speech:

    pip3 install -e .

3. 配置编译加速(可选)

为了提高模型的运行效率,可以安装 Triton Windows 编译加速器。通过以下命令安装:

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

4. 安装音频处理工具

Fish Speech 依赖于 soxffmpeg 来进行音频处理。在 WSL 的 Ubuntu 或 Debian 环境中,运行以下命令来安装:

sudo apt install libsox-dev ffmpeg

5. 启动 Fish Speech WebUI

在所有的依赖和库安装完成后,可以启动 WebUI 界面来进行语音合成。确保你位于 Fish Speech 源代码路径下,运行以下命令启动 WebUI:

python tools/webui.py

启动后,可以通过浏览器访问本地的 Web 界面,来上传文本并合成语音。

6. 总结

通过上述步骤,你应该已经成功配置并运行了 Fish Speech 的 WebUI 服务。该服务可以让你轻松地进行 AI 语音的模拟与合成。利用 Python 环境和必要的音频处理工具,Fish Speech 能够生成高质量的语音文件,特别适合语音项目开发者和研究人员使用。

希望这篇博客能帮助你顺利完成 Fish Speech 的安装和配置。如果遇到任何问题,可以在评论区留言,或者访问 Fish Speech GitHub 项目页面 了解更多信息。

参考资源


A Student on the way to full stack of Web3.