在音频和视频文件转写领域,Faster-Whisper-GUI 是一个强大的工具,能够将音频或视频文件转换成多种文字格式,如 SRT、TXT、SMI、VTT 和 LRC 文件。它基于高级模型如 WhisperX、Demucs 和 Whisper Large-v3 构建,确保了高准确性和灵活性。如果你想利用这些先进技术,本指南将帮助你从零开始配置并使用 Faster-Whisper-GUI。

PS:测试平台:Windows11,测试时间2024-04-22

PPS:该工具对设备的GPU性能和显存大小要求略高,已知使用RTX 4070 Ti Super显卡可以拥有极佳体验。

第一步:安装和配置 FFmpeg

在使用 Faster-Whisper-GUI 之前,你需要在你的系统上安装 FFmpeg,因为它依赖于 FFmpeg 来处理多媒体文件。按照以下步骤进行:

  1. 下载 FFmpeg:访问 https://www.gyan.dev/ffmpeg/builds/ 下载已经build好的 FFmpeg。然后解压并将解压出的文件放在某个英文路径下,如C:\Program Files\ffmpeg。 记住这个路径,然后将 FFmpeg 的 bin 目录添加到系统环境变量中。
    Snipaste_2024-04-23_00-41-34.png

  2. 配置环境变量:在 Windows 上,打开“系统属性”>“高级”>“环境变量”,(Windows11打开设置:“系统”>“系统信息”>“高级系统设置”>“高级”>“环境变量”> )然后在“系统变量”(或用户变量)区域找到“Path”,点击“编辑”并添加 FFmpeg 的 bin 的路径(如C:\Program Files\ffmpeg\bin)。
    Snipaste_2024-04-23_01-12-28.png

  3. 测试 FFmpeg:按下Win+R,输入cmd并回车,打开命令提示行,输入ffmpeg -version并回车,如果显示图中内容就表示环境配置成功了。
    Snipaste_2024-04-23_01-22-20.png

第二步:下载并使用 Whisper Large-v3 模型

Faster-Whisper-GUI 支持多种模型,其中 Whisper Large-v3 是其中的一种。你需要下载并配置此模型:

第三步:安装并配置 Faster-Whisper-GUI

  1. 下载 Faster-Whisper-GUI:访问软件的 GitHub仓库 - https://github.com/CheshireCC/faster-whisper-GUI 的Release页下载最新版本。
    Snipaste_2024-04-23_00-47-02.png

  2. 安装软件

  3. 配置模型:在 Faster-Whisper-GUI 的“模型参数”Tab页中指定第二步中下载的大模型文件的路径,记得点击加载模型,加载完之后关闭软件并重新打开。
    Snipaste_2024-04-23_01-33-28.png

第四步:使用 Faster-Whisper-GUI 转写文件

打开软件:选择以管理员身份运行启动 Faster-Whisper-GUI。(或者在属性里勾选“以管理员身份启动”)
Snipaste_2024-04-23_01-36-16.png

这个工具提供三个主要的功能模块:

Snipaste_2024-04-23_01-00-26.png

Demucs

Snipaste_2024-04-23_01-48-27.png

这是一个用于音频处理的模块,特别是在分离声音轨道时非常有用。可以用于音乐去人声、提取纯净人声等。

效果对比

  • 小林未郁 - βίος(生命)- 去人声效果

  • 小林未郁 - βίος(生命)- 原版

  • milet - Anytime Anywhere -《葬送的芙莉莲》ED - 纯净人声

  • milet - Anytime Anywhere -《葬送的芙莉莲》ED - 原版

  • ヨルシカ - 晴る -《葬送的芙莉莲》OP2 - 去人声效果

  • ヨルシカ - 晴る -《葬送的芙莉莲》OP2 - 原版

  • LONGMAN - spiral - 《无职转生》第二季 OP - 纯净人声

  • LONGMAN - spiral - 《无职转生》第二季 OP - 去人声效果

  • LONGMAN - spiral - 《无职转生》第二季 OP - 原版

faster-whisper

Snipaste_2024-04-23_01-49-22.png

此模块是该工具的核心,负责转写工作。它支持快速转写和其他高级设置,支持多种语言, 如常用的中文、英文、日文等,可以根据音频生成字幕文本。

whisperX

Snipaste_2024-04-23_01-49-39.png

这是一个提供音频转文本结果后处理的模块。可以在此进行二次处理和导出文本和字幕文件等。

结语

Faster-Whisper-GUI 是一个功能强大的转写工具,适用于专业人士和业余爱好者。只要正确安装和配置,你就可以享受到它带来的便利和效率。希望本指南能帮助你顺利启动和运行 Faster-Whisper-GUI,开始你的音视频转写之旅!


A Student on the way to full stack of Web3.