Impor data dari PDF ke Excel melalui Power Query

Tugas mentransfer data dari spreadsheet dalam file PDF ke lembar Microsoft Excel selalu "menyenangkan". Terutama jika Anda tidak memiliki perangkat lunak pengenalan yang mahal seperti FineReader atau semacamnya. Penyalinan langsung biasanya tidak menghasilkan sesuatu yang baik, karena. setelah menempelkan data yang disalin ke lembar, kemungkinan besar mereka akan "menempel" ke dalam satu kolom. Jadi mereka harus dipisahkan dengan susah payah menggunakan alat Teks menurut kolom dari tab Data (Data — Teks ke Kolom).

Dan tentu saja, penyalinan hanya dimungkinkan untuk file PDF di mana ada lapisan teks, yaitu dengan dokumen yang baru saja dipindai dari kertas ke PDF, ini pada prinsipnya tidak akan berfungsi.

Tapi itu tidak terlalu menyedihkan, kok

Jika Anda memiliki Office 2013 atau 2016, maka dalam beberapa menit, tanpa program tambahan, sangat mungkin untuk mentransfer data dari PDF ke Microsoft Excel. Dan Word dan Power Query akan membantu kami dalam hal ini.

Sebagai contoh, mari kita ambil laporan PDF ini dengan sekumpulan teks, rumus, dan tabel dari situs web Komisi Ekonomi untuk Eropa:

Impor data dari PDF ke Excel melalui Power Query

… dan mencoba menariknya di Excel, ucapkan tabel pertama:

Impor data dari PDF ke Excel melalui Power Query

Let’s go!

Langkah 1. Buka PDF di Word

Untuk beberapa alasan, hanya sedikit orang yang tahu, tetapi sejak 2013 Microsoft Word telah belajar membuka dan mengenali file PDF (bahkan yang dipindai, yaitu, tanpa lapisan teks!). Ini dilakukan dengan cara yang sepenuhnya standar: buka Word, klik File – Buka (Berkas — Buka) dan tentukan format PDF di daftar drop-down di sudut kanan bawah jendela.

Kemudian pilih file PDF yang kita butuhkan dan klik Open (Buka). Word memberi tahu kita bahwa itu akan menjalankan OCR pada dokumen ini ke teks:

Impor data dari PDF ke Excel melalui Power Query

Kami setuju dan dalam beberapa detik kami akan melihat PDF kami terbuka untuk diedit di Word:

Impor data dari PDF ke Excel melalui Power Query

Tentu saja, desain, gaya, font, header dan footer, dll. sebagian akan meninggalkan dokumen, tetapi ini tidak penting bagi kami – kami hanya memerlukan data dari tabel. Pada prinsipnya, pada tahap ini, sudah tergoda untuk menyalin tabel dari dokumen yang dikenali ke Word dan menempelkannya ke Excel. Terkadang berhasil, tetapi lebih sering mengarah ke segala macam distorsi data – misalnya, angka dapat berubah menjadi tanggal atau tetap berupa teks, seperti dalam kasus kami, karena. PDF menggunakan non-pemisah:

Impor data dari PDF ke Excel melalui Power Query

Jadi jangan mengambil jalan pintas, tetapi buat semuanya sedikit lebih rumit, tetapi benar.

Langkah 2: Simpan Dokumen sebagai Halaman Web

Untuk kemudian memuat data yang diterima ke Excel (melalui Power Query), dokumen kita di Word perlu disimpan dalam format halaman web – format ini, dalam hal ini, adalah sejenis penyebut umum antara Word dan Excel.

Untuk melakukan ini, buka menu File – Simpan Sebagai (Berkas — Simpan Sebagai) atau tekan tombol F12 pada keyboard dan di jendela yang terbuka, pilih jenis file Halaman web dalam satu file (Halaman web — File tunggal):

Impor data dari PDF ke Excel melalui Power Query

Setelah menyimpan, Anda harus mendapatkan file dengan ekstensi mhtml (jika Anda melihat ekstensi file di Explorer).

Tahap 3. Mengunggah file ke Excel melalui Power Query

Anda dapat membuka file MHTML yang dibuat di Excel secara langsung, tetapi kemudian kami akan mendapatkan, pertama, semua konten PDF sekaligus, bersama dengan teks dan banyak tabel yang tidak perlu, dan, kedua, kami akan kembali kehilangan data karena salah pemisah. Oleh karena itu, kami akan melakukan impor ke Excel melalui add-in Power Query. Ini adalah add-on gratis yang dapat digunakan untuk mengunggah data ke Excel dari hampir semua sumber (file, folder, database, sistem ERP) dan kemudian mengubah data yang diterima dengan segala cara yang memungkinkan, memberikan bentuk yang diinginkan.

Jika Anda memiliki Excel 2010-2013, maka Anda dapat mengunduh Power Query dari situs web resmi Microsoft – setelah penginstalan, Anda akan melihat tab Kueri Daya. Jika Anda memiliki Excel 2016 atau yang lebih baru, maka Anda tidak perlu mengunduh apa pun – semua fungsionalitas sudah ada di dalam Excel secara default dan terletak di tab Data (Tanggal) dalam kelompok Unduh dan Konversi (Dapatkan & Transformasikan).

Jadi kita pergi ke tab Data, atau di tab Kueri Daya dan pilih tim Untuk mendapatkan data or Buat Kueri – Dari File – Dari XML. Untuk membuat tidak hanya file XML yang terlihat, ubah filter di daftar drop-down di sudut kanan bawah jendela ke Semua data (Semua data) dan tentukan file MHTML kami:

Impor data dari PDF ke Excel melalui Power Query

Harap dicatat bahwa impor tidak akan berhasil diselesaikan, karena. Power Query mengharapkan XML dari kami, tetapi kami sebenarnya memiliki format HTML. Oleh karena itu, di jendela berikutnya yang muncul, Anda perlu mengklik kanan pada file yang tidak dapat dipahami oleh Power Query dan menentukan formatnya:

Impor data dari PDF ke Excel melalui Power Query

Setelah itu, file akan dikenali dengan benar dan kita akan melihat daftar semua tabel yang dikandungnya:

Impor data dari PDF ke Excel melalui Power Query

Anda dapat melihat isi tabel dengan mengklik tombol kiri mouse di latar belakang putih (bukan di kata Tabel!) dari sel di kolom Data.

Ketika tabel yang diinginkan ditentukan, klik pada kata hijau tabel – dan Anda “jatuh” ke dalam isinya:

Impor data dari PDF ke Excel melalui Power Query

Tinggal melakukan beberapa langkah sederhana untuk “menyisir” isinya, yaitu:

  1. hapus kolom yang tidak perlu (klik kanan pada header kolom – Remove)
  2. ganti titik dengan koma (pilih kolom, klik kanan – Mengganti nilai)
  3. hapus tanda sama dengan di header (pilih kolom, klik kanan – Mengganti nilai)
  4. hapus baris atas (Beranda – Hapus baris – Hapus baris teratas)
  5. hapus baris kosong (Beranda – Hapus baris – Hapus baris kosong)
  6. naikkan baris pertama ke header tabel (Beranda – Gunakan baris pertama sebagai judul)
  7. menyaring data yang tidak perlu menggunakan filter

Ketika meja dibawa ke bentuk normal, itu bisa diturunkan ke lembar dengan perintah tutup dan unduh (Tutup & Muat) on Utama tab. Dan kita akan mendapatkan keindahan yang sudah bisa kita kerjakan:

Impor data dari PDF ke Excel melalui Power Query

  • Mengubah Kolom menjadi Tabel dengan Power Query
  • Memisahkan teks tempel menjadi kolom

Tinggalkan Balasan