Encodage de sous-titres (Handbrake défaillant)

Sur ubuntu :

apt install ffmpeg ogmrip tesseract-ocr tesseract-ocr-fra subtitleeditor

Disposer des infos avec ffmpeg :

ffmpeg -i VTS_01_1.VOB

Récupérer les .idx et .sub pour le titre 1:

mencoder dvd://1 -nosound -ovc frameno -o /dev/null -vobsuboutindex 0 -sid 0 -vobsubout nom_du_fichier

Le sid est la piste à lire, elle sera passée en sid 0 par l'instruction vobsuboutindex.
Script d'ocr (Tesseract.sh) à placer dans le dossier (le paquet tesseract-ocr-fra est nécessaire):

#!/bin/bash

NPROC=$(nproc --all| awk '{ print $1 - 1 }') # Set number of processor
for fichier in *.tif
do
(
echo "$fichier"
tesseract "$fichier" "$fichier" -l fra --psm 6 &>/dev/null
) &
if [[ $(jobs -r -p | wc -l) -gt $NPROC ]]; then
wait -n
fi
done
wait

Création des fichiers tiff et du xml indexé :

subp2tiff --sid=0 -n nom_du_fichier

On lance le script qui va océriser les fichiers:

./Tesseract.sh

C'est long.

On assemble les fichiers txt et l'index xml :

subptools -s -w -t srt -i nom_du_fichier.xml -o nom_du_fichier.srt

Normalement, le tour est joué.

tty

mon pense-bête Debian

Encodage de sous-titres (Handbrake défaillant)