Sur ubuntu :
apt install ffmpeg ogmrip tesseract-ocr tesseract-ocr-fra subtitleeditor
Disposer des infos avec ffmpeg :
ffmpeg -i VTS_01_1.VOB
Récupérer les .idx et .sub pour le titre 1:
mencoder dvd://1 -nosound -ovc frameno -o /dev/null -vobsuboutindex 0 -sid 0 -vobsubout nom_du_fichier
Le sid est la piste à lire, elle sera passée en sid 0 par l'instruction vobsuboutindex.
Script d'ocr (Tesseract.sh) à placer dans le dossier (le paquet tesseract-ocr-fra est nécessaire):
#!/bin/bash
NPROC=$(nproc --all| awk '{ print $1 - 1 }') # Set number of processor
for fichier in *.tif
do
(
echo "$fichier"
tesseract "$fichier" "$fichier" -l fra --psm 6 &>/dev/null
) &
if [[ $(jobs -r -p | wc -l) -gt $NPROC ]]; then
wait -n
fi
done
wait
Création des fichiers tiff et du xml indexé :
subp2tiff --sid=0 -n nom_du_fichier
On lance le script qui va océriser les fichiers:
./Tesseract.sh
C'est long.
On assemble les fichiers txt et l'index xml :
subptools -s -w -t srt -i nom_du_fichier.xml -o nom_du_fichier.srt
Normalement, le tour est joué.