Op je werk kom je waarschijnlijk (bijna) dagelijks PDF-bestanden tegen. Vaak bevatten deze bestanden gegevens die je elders wilt gebruiken, bijvoorbeeld om een berekening uit te voeren in een Excel-sheet.
Daarvoor moet je de gegevens uit het PDF-bestand halen. Je kopieert de gegevens dus in Excel en start dan je berekening. Als je dit voor één of twee PDF-bestanden hoeft te doen, werkt dit natuurlijk prima. Maar als je honderden documenten moet doorlopen, wordt het opeens een tijdrovende kopieer en plak-nachtmerrie.
Het is dus een no-brainer om slimmere manieren te onderzoeken om gegevens uit PDF naar Excel te halen. En dat is precies wat we in deze blog zullen doen!
Eerst behandelen we vier manieren om gegevens uit PDF naar Excel te halen, daarna bespreken we de voor- en nadelen en tot slot introduceren we een geautomatiseerde oplossing die jou en je bedrijf kan helpen uit te blinken in intelligente gegevensverwerking.
Vier manieren om data van PDF naar Excel om te zetten
Er zijn veel verschillende manieren om gegevens uit PDF naar Excel te halen, maar dit zijn de vier meest voorkomende manieren:
- Kopiëren en plakken
- PDF-converters
- PDF tabel-extractie tools
- Rechtstreeks importeren in Excel
Kopiëren en plakken
De meest eenvoudige methode om gegevens uit een PDF-bestand naar Excel te kopiëren en te plakken. Hierbij wordt het bestand geopend, de relevante tekst geselecteerd en naar een Excel werkblad gekopieerd en geplakt.
Deze methode kan de beste optie zijn als je slechts enkele PDF-bestanden hebt. Maar zodra je er duizenden hebt, leidt dit hoogst waarschijnlijk tot fouten bij de gegevensinvoer en neemt daarnaast ook veel van je tijd in beslag. Daarnaast is het ook gewoon een ontzettend saai proces.
Kopiëren en plakken met Microsoft Word
Het kopiëren van gegevens werkt in de meeste gevallen goed, maar soms geeft het niet het gewenste resultaat. Het is bijvoorbeeld bijna onmogelijk om een hele tabel, inclusief de structuur en de gegevens, netjes te kopiëren en te plakken van PDF naar Excel. In zo’n geval moet je het PDF-bestand eerst in Word openen, en vervolgens kopiëren en plakken naar Excel.
Om van deze methode gebruik te maken, moet je beschikken over Microsoft Word 2013 of een nieuwere versie. Vervolgens moet je de volgende stappen uitvoeren:
- Open het PDF-bestand met behulp van Microsoft Word;
- Kopieer de inhoud van het Microsoft Word-bestand en plak deze in een Excel-spreadsheet.
Hoewel deze methode redelijke resultaten oplevert, kan het niet overweg met complexe elementen zoals ingewikkelder tabellen met cel-afstanden. Bovendien is het niet mogelijk gegevens in bulk te extraheren, omdat je elk PDF-bestand één voor één moet openen.
PDF-converters
Als je vaker gegevens uit PDF-bestanden naar Excel moet overbrengen, is een PDF-converter een goede optie. PDF-converters kunnen PDF-bestanden in slechts enkele seconden omzetten in Excel-bestanden.
Het proces is heel eenvoudig: selecteer het PDF-bestand dat je wilt converteren, upload het bestand naar de PDF-converter en klik op de knop Converteren. Je bestand kan worden geconverteerd naar een Excel-bestand of een ander gewenst formaat.
Met sommige PDF-converters kun je zelfs rechtstreeks tekst en afbeeldingen in een PDF-bestand bewerken en deze vervolgens exporteren naar een Excel-bestand.
Er zijn veel PDF-converters beschikbaar, maar hier is een lijst van enkele van de beste PDF-converters op de markt:
- Adobe Acrobat
- Cometdocs
- Able2Extract
- PDFelement
- SimplyPDF
Een PDF-converter kan weliswaar efficiënt en snel gegevens extraheren, maar biedt geen data-extractie in bulk. Je moet de PDF-bestanden één voor één uploaden. Bovendien werken PDF-converters alleen met native PDF-documenten. Dit betekent dat als je een gescand papieren document hebt dat is opgeslagen als PDF, het niet mogelijk is om er gegevens uit te halen.
Hulpmiddelen voor PDF tabel-extractie
Het kan zo zijn dat je alleen gegevens uit een bepaalde tabel wilt halen. Een PDF-converter kan je eerste keuze zijn, maar die slaagt er niet in de gegevens nauwkeurig te extraheren. Gelukkig zijn er andere hulpmiddelen die je kunnen helpen: hulpmiddelen voor het extraheren van tabellen.
Hieronder vind je de vijf beste tools voor het extraheren van tabellen:
- Tabula
- PdfTables
- Docparser
- Camelot
- Excalibur
Met de meeste van deze hulpmiddelen kun je een vak rond de tabel tekenen en vervolgens de gegevens naar Excel of andere formaten extraheren.
Iets waar je rekening mee moet houden is dat hulpmiddelen voor het extraheren van tabellen alleen werken met native PDF-bestanden. Met de meeste van deze tools kun je slechts één bestand tegelijk uploaden en moet je de tabel selecteren die moet worden geconverteerd.
Bovendien heb je in sommige gevallen interne kennis nodig om een tool voor het extraheren van tabellen af te stemmen op jouw specifieke toepassing. Met andere woorden, het gebruik van zo’n extractie hulpmiddel voor PDF tabellen is nog steeds arbeidsintensief en daarom niet de ideale oplossing.
Directe import naar Excel
Een PDF rechtstreeks in Excel importeren en er gegevens uit halen kan ook een goede optie zijn.
Laten we de stappen eens bekijken:
- Open de Excel-spreadsheet;
- Selecteer de tab Gegevens > Gegevens ophalen > Uit bestand > Uit PDF;
- Selecteer het PDF-bestand en selecteer Importeren;
- Vervolgens zie je een Navigator-paneel met de tabellen en pagina’s in je PDF, samen met een voorbeeld;
- Selecteer de tabel en klik op Laden. De tabel wordt geïmporteerd in het Excel werkblad.
Deze methode is vrij efficiënt bij eenvoudige gegevens. Ingewikkelde gegevens of tabellen met meerdere pagina’s leiden echter tot vervelende fouten in de opmaak.
De voor- en nadelen van elke methode
Nu je op de hoogte bent van de vier verschillende manieren om gegevens uit een PDF-bestand te extraheren, vraag je je misschien af welke van deze methoden jij moet gebruiken bij het extraheren van gegevens uit PDF naar Excel.
Om je te helpen het antwoord op die vraag te vinden, hebben we in de onderstaande tabel de voor- en nadelen van elke methode opgesomd.
Kopiëren en plakken | Voordelen – Als je slechts een paar PDF-bestanden hebt, is dit de gemakkelijkste methode – Er is geen extra software of apparatuur nodig. Nadelen – Wanneer je veel bestanden hebt is het zeer tijdrovend – Gevoelig voor fouten – Uiterst vervelend proces |
PDF-converters | Voordelen – Gemakkelijk te gebruiken – Veel online tools beschikbaar – Goedkope optie Nadelen – Functionaliteit is beperkt – Niet mogelijk om gegevens in bulk te extraheren – Werkt alleen met native PDF’s |
PDF-tabel extractie-tools | Voordelen – Extraheert snel en nauwkeurig gegevens uit een tabel – Extraheert de gegevens ook naar andere formaten Nadelen – Werkt alleen met native PDF-bestanden – Vereist interne expertise – Geen volledig geautomatiseerd proces |
Directe import naar Excel | Voordelen – Eenvoudige methode – Geen extra software of apparatuur nodig Nadelen – Onmogelijk om gegevens in bulk te extraheren – Vereist enige kennis van Excel – Fouten in opmaak |
Na het analyseren van bovenstaande tabel realiseer je je waarschijnlijk dat geen van deze methoden perfect is. Ze kunnen allemaal niet omgaan met grote hoeveelheden documenten, non-native PDF-bestanden of ze zijn niet volledig geautomatiseerd. Daarom presenteren wij een volledig geautomatiseerde oplossing, die sneller, nauwkeuriger én efficiënter is!
Data van PDF naar Excel om te zetten met een automatische oplossing
De nauwkeurigste en snelste manier om gegevens uit PDF-bestanden naar Excel over te brengen is met behulp van een geautomatiseerde oplossing voor data-extractie.
Geautomatiseerde oplossingen voor data-extractie maken gebruik van een tekstherkenning technologie die bekend staat als Optical Character Recognition (OCR) om nauwkeurig gegevens uit documenten te extraheren.
Een goed voorbeeld van een dergelijke geautomatiseerde oplossing is Klippa DocHorizon, die binnen enkele seconden grote hoeveelheden native en non-native PDF’s kan verwerken. Het kan ook gemakkelijk worden geïntegreerd in bestaande software door gebruik te maken van Klippa’s OCR API.
Hier volgt een kort overzicht van hoe de technologie werkt:
- Het PDF-bestand uploaden naar de API – Eerst moet je het PDF-document indienen bij de API. Je kunt dit doen via onze mobiele of webapplicatie.
- Het PDF-bestand voorbewerken – In de tweede stap worden de kenmerken van het document verbeterd om de nauwkeurigheid te verhogen. Zo wordt bijvoorbeeld de helderheid van een scan of de grijswaarden van een document verbeterd.
- De PDF omzetten in tekst – Vervolgens zet de software het PDF-document om in een tekstbestand. De PDF-gegevens zijn nu geëxtraheerd, maar op dit punt nog niet gestructureerd;
- Converteren naar Excel – In de laatste stap zet de Klippa-parser het tekstbestand om in gestructureerde gegevens, in dit geval Excel. Vanaf dit punt kun je de gegevens uit het PDF-bestand gemakkelijk gaan gebruiken in Excel.
Door deze stappen te volgen, kan Klippa DocHorizon gegevens uit vrijwel elk PDF-bestand halen. Je bespaart tijd, fouten en kosten.
Conclusie
In deze blog hebben we de vier populairste methoden besproken om gegevens uit PDF naar Excel te halen. We beschreven de voor- en nadelen en vergeleken ze op verschillende functionaliteiten. Uiteindelijk wordt dan duidelijk dat geen van de vier de perfecte optie was.
Dat is waar we Klippa DocHorizon hebben geïntroduceerd!
Klippa DocHorizon is een volledig geautomatiseerde oplossing die je enorm kan helpen bij het extraheren van gegevens van PDF naar Excel. Onze oplossing is in staat om grote hoeveelheden documenten te verwerken en kan eenvoudig worden geïntegreerd in de bestaande software van jouw bedrijf.
Mocht je nog vragen hebben over onze oplossing, aarzel dan niet om contact op te nemen met onze experts of boek hieronder een gratis demo!