AutoSub 使用 Mozilla DeepSpeech 或 Coqui STT 为任何视频文件生成字幕文件(.srt、.vtt 和 .txt)。
对音频片段进行分析,使用 pyAudioAnalysis 将初始音频拆分为片段,生成多个较小的文件。
安装 Python3
apt install python3 python3-pip ffmpeg -y
拉取:
git clone https://github.com/abhirooptalasila/AutoSub
cd AutoSub
修改文件:
scipy==1.5.4
# 文件 requirements.txt 修改版本
python_requires='<=3.9.2'
# 文件 setup.py 修改版本
安装:
pip install .
# 报错:
Attempting uninstall: six
Found existing installation: six 1.16.0
Not uninstalling six at /usr/lib/python3/dist-packages, outside environment /usr
Can't uninstall 'six'. No files were found to uninstall.
# 解决:
apt remove python-six
apt autoremove
再次:
pip install .
---------------
Successfully built AutoSub
Installing collected packages: AutoSub
Attempting uninstall: AutoSub
Found existing installation: AutoSub 0.0.1
Uninstalling AutoSub-0.0.1:
Successfully uninstalled AutoSub-0.0.1
Successfully installed AutoSub-0.0.1
处理视频:
python3 autosub/main.py --file ~/input/movie.mp4
- 硬件配置:CPU i5-8400
- 视频信息:mp4/中文/130MB/360p/46min,mp4/英文/3.85GB/1080p/94min
- 提取速度:5min和29min
- 具体情况:对中文语言效果差,无对应语言模型。对英文不错,时间轴有些许偏差或者遗漏。没研究多音轨视频如何处理。
其它下载:
https://deepspeech.readthedocs.io/en/v0.9.3/USING.html#cuda-dependency-inference
模型:
DeepSpeech
https://discourse.mozilla.org/t/links-to-pretrained-models/62688
类似项目
autosub:
https://github.com/BingLingGroup/autosub
懒人快速提取字幕:
PC剪映-文本-智能字幕-字幕识别-仅导出 srt 即可。
建议分离音频处理它,因为剪映会上传服务器进行识别处理,文件小速度会快一些。
Buzz 可安装程序:
https://github.com/chidiwilliams/buzz
更新 2023-02-08