Kata Larry Wall kemalasan adalah sebuah kebijaksanaan. Saya terkena kemalasan itu. Saya malas membaca surat resmi yang didigitalisasi dengan dipindai menjadi PDF. Saya malas membaca surat-surat itu berulang-ulang hanya demi mendapatkan nomor surat.

Prekondisi

Saya butuh perkakas untuk kemalasan saya ini. Saya butuh OCR yang bisa dipakai untuk tinggal menyalin informasinya dan memasukkan ke dalam KM. Saya ketemu Tesseract.

sudo emerge app-text/tesseract app-text/ghostscript-gpl

atau

sudo apt-get install tesseract ghostscript

atau cara yang lain yang Anda ketahui.

Tindakan

Ubah PDF menjadi TIFF (atau PNG pun sebenarnya bisa):

ghostscript -o document.tiff -sDEVICE=tiffgray -r720x720 -g6120x7920 -sCompression=lzw document.pdf

Baca berkas TIFF:

tesseract document.tiff hasil-scan -l id

Selesai.

Terakhir

Ini edisi kemalasan maka penjelasan kurang. Ya, mau dikata apa? Silakan konsultasi ke Mbah Gugel.

Bacaan Lebih Lanjut