Kata Larry Wall kemalasan adalah sebuah kebijaksanaan. Saya terkena kemalasan itu. Saya malas membaca surat resmi yang didigitalisasi dengan dipindai menjadi PDF. Saya malas membaca surat-surat itu berulang-ulang hanya demi mendapatkan nomor surat.
Prekondisi
Saya butuh perkakas untuk kemalasan saya ini. Saya butuh OCR yang bisa dipakai untuk tinggal menyalin informasinya dan memasukkan ke dalam KM. Saya ketemu Tesseract.
sudo emerge app-text/tesseract app-text/ghostscript-gpl
atau
sudo apt-get install tesseract ghostscript
atau cara yang lain yang Anda ketahui.
Tindakan
Ubah PDF menjadi TIFF (atau PNG pun sebenarnya bisa):
ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf
Baca berkas TIFF:
tesseract document.tiff hasil-scan -l id
Selesai.
Terakhir
Ini edisi kemalasan maka penjelasan kurang. Ya, mau dikata apa? Silakan konsultasi ke Mbah Gugel.