智能视频处理系统
项目简介
本项目是一个自动化视频处理系统,能够实现视频音频提取、语音识别、字幕生成、多语言翻译、语音合成以及音视频合成等功能。系统采用模块化设计,支持单步或多步处理,方便用户根据需求灵活使用。
功能特性
-
音频处理
- 支持多种音频格式
- 自动调整采样率和声道
- 音频质量优化
-
字幕生成
- 使用 Whisper 进行语音识别
- 自动生成带时间戳的字幕
- 支持多语言翻译,使用 Azure Translator API
- 保持字幕时间轴对齐
-
语音合成
- 使用 Edge TTS 进行语音合成
- 智能语速调整
- 多语言语音支持
-
视频合成
- 支持多种视频格式,音视频同步
- 视频质量保持
安装说明
- 克隆项目
git clone https://github.com/bushkarl/video-processor.git cd video-processor
- 创建虚拟环境
python3 -m venv venv source venv/bin/activate # Linux/Mac venv\Scripts\activate # Windows
- 安装依赖
pip3 install -r requirements.txt
- 配置环境变量,安装 FFmpeg
brew install ffmpeg # Linux/Mac choco install ffmpeg # Windows
使用方法
- 单步处理与多步处理
- 输出文件和可用语音选项
注意事项
- 确保已正确安装 FFmpeg
- 配置 Azure Translator API 密钥
贡献
欢迎提交 Issue 和 Pull Request!