Kaemingk: PDF extractie

Kaemingk is een internationaalbedrijf dat focust op de verkoop van seizoen- en woonaccessoires. Het bedrijf is opgericht in 2008 en heeft een groot assortiment aan seizoenproducten zoals kerstdecoraties, maar ook kaarsen, glaswaren en andere woonaccessoires.

Uitdaging

Het bedrijf werd geconfronteerd met een probleem: hun gehele assortiment moet namelijk voorzien worden van een certificaat dat bewijst dat het product getest is tegen legaal verplichte wetten. Deze producten worden getest door lokale testbureaus die de resultaten van de test in een pdf-bestand vastleggen. Zo’n pdf geeft informatie over welk product getest is, wanneer de test plaatsvond, welk certificaat bij de test hoort, de normen die getest zijn en mogelijk de richtlijnen die bij elke test horen.

Uit deze pdf’s dient informatie te worden gehaald. Dit proces kan je natuurlijk handmatig uitvoeren, maar kost enorm veel tijd en is ook nog eens gevoelig voor fouten. Daarom heeft Kaemingk gevraagd of Squadra Machine Learning Company een proof-of-concept (POC) kan uitvoeren, waar algoritmes worden gebruikt om informatie uit zo’n 20 pdf-bestanden te halen.

Oplossing

Nadat de POC was uitgevoerd, bleek het inderdaad mogelijk te zijn om op een geautomatiseerde manier data uit deze pdf-bestanden te halen. Op deze manier zou Kaemingk de informatie die ze nodig heeft, uit deze pdf’s kunnen halen en kunnen exporteren naar een Excelbestand. Dat zou niet alleen bijdragen aan een vermindering van de manuren die het handmatig uitvoeren van dit proces zou kosten, maar ook aan een hogere efficiëntie in de toekomst: wanneer de testbureaus nieuwe pdf’s opsturen, kunnen deze automatisch gescraped worden.

Voor toekomstig gebruik kan Squadra Machine Learning Company deze oplossing bieden in de vorm van een gebruikersvriendelijke software. Medewerkers worden dan voorzien van hun eigen gebruikersnaam en wachtwoord om in te loggen in de portal. Vervolgens kunnen ze bestanden uploaden die de algoritmes trainen en slimmer maken. Daarna kunnen de daadwerkelijke pdf’s geüpload worden, en komt er een Excelbestand uit met informatie over de betreffende pdf.

Resultaat

Met behulp van Squadra MLC heeft Kaemingk het scrapen van pdf’s weten te automatiseren. Deze pdf’s bevatten belangrijke informatie over de producten en de bijbehorende normen die (legaal gezien) gehaald moeten worden. Deze informatie was dan ook cruciaal voor Kaemingk. Het handmatig vergaren van zulke informatie zou enorm veel tijd kosten en gevoelig zijn voor fouten. Met behulp van Squadra MLC kan Kaemingk nu een grote hoeveelheid pdf’s direct scrapen, en zo is hun