AI摘要:Pyvideotrans是一个开源的视频翻译、音频转录和语音合成工具,支持50多种语言和10多种顶级AI。它能够自动翻译视频和音频,生成字幕,进行配音,并将新的音频和字幕合并到原始视频中。软件支持语音转录、文本转语音和SRT字幕翻译等功能。用户可以从官网下载预打包版本或从源代码部署。教程和文档可在官网查看。
Powered by 中文AI技术教程与社区分享.
Pyvideotrans官网开源地址:
Recall.ai - 会议转录 API
如果您正在寻找会议转录 API,不妨了解一下 Recall.ai 。这款 API 可与 Zoom、Google Meet、Microsoft Teams 等平台兼容。Recall.ai 通过从会议平台提取发言者数据和独立的音频流来实现发言者分录,这意味着它能 100% 准确地识别发言者,并包含发言者的真实姓名。
视频翻译和配音工具
这是一个功能强大的 开源视频翻译/音频转录/语音合成工具 ,致力于将视频从一种语言无缝转换为另一种语言,并配有配音和字幕。
核心功能概览
- 全自动视频/音频翻译 :智能识别和转录音频/视频中的声音,生成源语言字幕,将其翻译成目标语言,进行配音,最后将新的音频和字幕合并到原始视频中——所有操作一次性完成。
- 语音转录/音频和视频转字幕 :批量将视频或音频文件中的人声转录成带有精确时间码的 SRT 字幕文件。
- 语音合成/文本转语音 (TTS) :利用各种先进的 TTS 通道,为您的文本或 SRT 字幕文件生成高质量、自然流畅的语音旁白。
- SRT 字幕翻译 :支持批量翻译 SRT 字幕文件,保留原始时间戳和格式,同时提供多种双语字幕样式。
- 实时语音转文本 :支持实时麦克风监听,将语音转换为文本。
工作原理
在开始使用之前,请确保您了解该软件的核心工作机制:
首先,human voice 通过[语音识别通道]将音频或视频中的语音转换为字幕文件。然后,通过[翻译通道]将该字幕文件翻译成目标语言。接着,通过选定的[配音通道]使用翻译后的字幕生成音频。最后,将字幕、音频和原始视频嵌入并对齐,完成视频翻译过程。
- 可处理 :任何包含人声的音频或视频,无论是否带有字幕。
- 无法处理 :仅包含背景音乐和硬编码字幕而无语音的视频。本软件也无法直接从视频帧中提取硬编码字幕。
预打包版本(仅限 Windows 10/11,MacOS/Linux 使用源代码)
使用 PyInstaller 打包。未应用任何防病毒规避或签名措施;防病毒软件可能会将其标记为病毒。请将其添加到您的信任列表或从源代码部署。
- 点击下载预打包版本,将其解压缩到路径中没有空格的目录中,然后双击运行
sp.exe。 - 解压到英文路径,确保路径中不包含空格。解压后,双击运行
sp.exe(如果遇到权限问题,请右键单击并以管理员身份运行)。 - 注意 :使用前必须解压缩文件。请勿直接从压缩包内运行程序,
sp.exe解压缩后也请勿将文件移动到其他位置。
源代码部署
推荐:使用安装程序uv。如果您还没有安装程序uv,请查看官方安装指南。
MacOS/Linux 的先决条件
macOS :执行以下命令安装所需的库:brew install libsndfile brew install ffmpeg brew install gitLinux :
ffmpeg使用sudo yum install -y ffmpeg或安装apt-get install ffmpeg。创建一个名称中不包含空格的文件夹。在该文件夹下打开终端并执行以下命令:
git clone https://github.com/jianchang512/pyvideotrans cd pyvideotrans或者,点击绿色的“代码”按钮,直接从https://github.com/jianchang512/pyvideotrans下载源代码,解压缩,然后导航到包含.
sp.py- 运行
uv sync此命令安装模块。根据您的网络连接速度,这可能需要几分钟到十分钟以上。 - 运行
uv run sp.py以启动软件界面。
源部署故障排除
- 默认情况下,该软件使用
ctranslate24.x 版本,仅支持 CUDA 12.x。如果您的 CUDA 版本低于 12 且无法升级,请执行以下命令卸载ctranslate2并重新安装兼容版本:
uv remove ctranslate2
uv add ctranslate2==3.24.0教程和文档
软件预览
