docker-whisperX

Docker构建

这是社区版WhisperX：具有词级时间戳（和说话人分离）的自动语音识别的docker镜像。

本项目的目标是在GitHub免费运行器上每周高效管理持续集成docker构建工作流程。这包括并行构建175个Docker镜像，每个大小为10GB。为确保顺利运行，我专注于高效利用docker层缓存，最大化层重用，仔细管理缓存读/写顺序以防止任何问题，并优化以最小化镜像大小和构建时间。

此外，出于个人偏好，我致力于尽我所能遵循最佳实践、行业标准和政策。

在GitHub获取Dockerfile，或从ghcr.io拉取镜像。

🚀 为GPU支持准备Docker

Windows

安装Docker Desktop、CUDA Toolkit、NVIDIA Windows驱动程序，并确保Docker使用WSL2运行后，即可开始使用。

以下是官方文档供进一步参考。
https://docs.nvidia.com/cuda/wsl-user-guide/index.html#nvidia-compute-software-support-on-wsl-2 https://docs.docker.com/desktop/wsl/use-wsl/#gpu-support

Linux, OSX

如果尚未安装NVIDIA GPU驱动程序，请先安装。
https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html

按照此指南安装NVIDIA Container Toolkit。
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

📦 可用的预构建镜像

GitHub工作流状态（带事件） GitHub最后提交（分支）

[!注意]
这些镜像中的WhisperX代码库与git子模块提交哈希一致。
我有一个定期运行的CI工作流程每周针对主分支重建所有docker镜像。

docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:base-en     -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:large-v3-ja -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:no_model    -- --model tiny --language en --output_format srt audio.mp3

镜像标签格式为WHISPER_MODEL-LANG，例如tiny-en、base-de或large-v3-zh。
请注意，whisper模型*.en和large-v1已被排除，因为我认为它们不常用。如果你需要这些模型，请参考以下部分自行构建。

你可以在ghcr.io找到所有可用标签。

另外，还有一个no_model标签，不包含任何预下载的模型，也称为latest。

⚡️ 处理不同语言时保留对齐模型的下载缓存

你可以挂载/.cache以在容器间共享对齐模型。
请在此场景下使用no_model（latest）标签。

docker run --gpus all -it -v ".:/app" -v whisper_cache:/.cache ghcr.io/jim60105/whisperx:latest -- --model large-v3 --language en --output_format srt audio.mp3

🛠️ 构建Docker镜像

[!重要]
请递归克隆Git仓库以包含子模块：
git clone --recursive https://github.com/jim60105/docker-whisperX.git

构建参数

Dockerfile构建包含模型的镜像。它接受两个构建参数：LANG和WHISPER_MODEL。

LANG：要转录的语言。默认为en。支持的语言请参见这里。
WHISPER_MODEL：模型名称。默认为base。支持的模型请参见fast-whisper。

如果需要多种语言对齐，构建镜像时使用空格分隔的语言列表"LANG=pl fr en"。还要注意，WhisperX在处理同一音频文件中的多种语言时表现不佳。即使你不提供语言参数，它仍会识别语言（或回退到英语）并用于选择对齐模型。对齐模型是特定于语言的。这个说明仅用于将多个对齐模型嵌入到docker镜像中。

构建命令

[!NOTE] 如果您使用的是较早版本的 Docker 客户端，在构建镜像时需要启用 BuildKit 模式。这是因为我使用了 COPY --link 功能，它可以提高构建性能，并在 Buildx v0.8 中引入。在 Docker Engine 23.0 和 Docker Desktop 4.19 中，Buildx 已成为默认的构建客户端。因此，使用最新版本时您无需担心这一点。

例如，如果您想构建使用 en 语言和 large-v3 模型的镜像：

docker build --build-arg LANG=en --build-arg WHISPER_MODEL=large-v3 -t whisperx:large-v3-en .

如果您想构建不预下载任何模型的镜像：

docker build --target no_model -t whisperx:no_model .

如果您想一次性构建所有镜像，我们提供了一个 Docker bake 文件：

[!WARNING] Bake 目前是一个实验性功能，可能需要额外配置才能正常运行。

docker buildx bake build no_model ubi-no_model

使用命令

将当前目录挂载为 /app 并运行 WhisperX，同时传入额外的输入参数：

docker run --gpus all -it -v ".:/app" whisperx:large-v3-ja -- --output_format srt audio.mp3

[!NOTE] 请记住在参数前加上 --。 --model 和 --language 参数已在 Dockerfile 中定义，无需再次指定。

⛑️ 基于 Red Hat UBI 的镜像

我创建了一个替代的 ubi.Dockerfile，它基于 Red Hat Universal Base Image (UBI) 镜像，而不是默认使用的 Python 官方镜像。如果您是 Red Hat 订阅用户，我相信您会发现它的优势。

[!TIP] 随着 Red Hat Universal Base Image (UBI) 的发布，无论您是否是客户，现在都可以在运行 OCI 兼容 Linux 容器的地方利用官方 Red Hat 容器镜像的更高可靠性、安全性和性能。-- Red Hat 博客

需要注意的是，使用 UBI 并不需要从 Red Hat 获得许可，但如果您是订阅用户并在 RHEL/OpenShift 上运行它，您可能会得到 Red Hat 的支持。

尽管我最初有所犹豫，但我决定不将 UBI 版本作为默认镜像。Python 官方镜像 的用户群明显大于 UBI，我认为选择它更符合公众期望。尽管如此，我仍建议您尝试 UBI 版本。

请参考我们扫描工作流程产物中的最新漏洞扫描报告。您可以看到，与 Python 官方镜像 版本相比，UBI 版本的漏洞较少。

您可以在标签 ubi-no_model 获取预构建的镜像。请注意，只有 no_model 可用。您可以根据需要使用 ubi.Dockerfile 自行构建镜像。这个 Dockerfile 支持与默认版本相同的构建参数。

docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:ubi-no_model -- --model tiny --language en --output_format srt audio.mp3

[!WARNING] 免责声明：我已按照 Red Hat 容器认证要求中规定的规范创建了镜像，但我不会追求实际的认证。

📝 许可证

主程序 WhisperX 是根据 BSD-4 许可证分发的。请查阅他们的仓库以获取源代码和许可证。

本仓库中的 Dockerfile 和 CI 工作流程文件根据 MIT 许可证授权。

docker-whisperX

docker-whisperX

🚀 为GPU支持准备Docker

Windows

Linux, OSX

📦 可用的预构建镜像

⚡️ 处理不同语言时保留对齐模型的下载缓存

🛠️ 构建Docker镜像

构建参数

构建命令

使用命令

⛑️ 基于 Red Hat UBI 的镜像

📝 许可证

编辑推荐精选

扣子-AI办公

堆友

码上飞

Vora

Refly.AI

酷表ChatExcel

TRAE编程

AIWritePaper论文写作

博思AIPPT

潮际好麦

探索AI的无限可能

推荐工具精选

TRAE编程

扣子-AI办公

码上飞

商汤小浣熊

讯飞绘文

讯飞绘镜

iTerms

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号