Konversi konten PDF ke TXT dengan PHP

Di tulisan ini saya akan menjelaskan bagaimana agar anda dapat mengambil data konten PDF kedalam sebuah teks dengan menggunakan PHP.

Awalnya saya ada project untuk mencari/grep kata didalam sebuah file PDF menggunakan PHP, hal pertama yang saya fikirkan adalah bagaimana cara untuk mengambil semua isi konten PDF lalu mengkonversikannya kedalam sebuah file TXT, lalu kemudian mencari kata yang akan dicari di file TXT yang sudah berisikan konten PDF tersebut.

Setelah googling, saya menemukan 2 solusi; menggunakan pdftotext (library linux) dan class PHP pdf2text, namun di tulisan ini, saya akan lebih membahas konversi dengan class PHP pdf2text.

pdftotext (Linux Library)

Untuk menggunakannya, anda dapat menggunakan fungsi  shell_exec()  karena anda akan mengeksekusi perintah linux di file PHP.

Pemahaman:

  1. input.pdf – Tetapkan dimana anda menyimpan file PDF
  2. output.txt – Tetapkan dimana anda akan men-generate konten PDF kedalam sebuah file TXT

pdf2text (class PHP)

Untuk menggunakannya, unduh file class PHP disini, lalu gunakan di file PHP anda.

Pemahaman:

  1. Include file  class.pdf2text.php  di file PHP yang akan anda gunakan.
  2. pdf-file.pdf – Poinkan ke file PDF yang akan dikonversi ke text
  3. Menampilkan hasil konversi dengan meng-echo text

Mudah bukan? Gunakan konversi ini setelah anda melakukan aksi simpan file PDF, lalu simpan hasil TXT sebagai database untuk mencari kata didalam sebuah file PDF.

Selamat mencoba 🙂

Content Protection by DMCA.com