In een tijdperk waarin digitalisering een steeds grotere rol speelt, staan veel organisaties voor de uitdaging om hun papieren archieven digitaal op te slaan. Deze transitie biedt niet alleen voordelen op het gebied van toegankelijkheid en efficiëntie, maar is ook noodzakelijk om te voldoen aan de steeds strenger wordende regels en wetten rondom gegevensbeheer en privacy.
Hakan heeft in zijn masterscriptie een systeem ontwikkeld om grote papieren archieven te segmenteren in losse documenten en deze te classificeren volgens vooraf bepaalde regels. Dit is belangrijk omdat archieven vaak documenten bevatten die, vanwege privacy en wetgeving, vernietigd moeten worden, terwijl andere bewaard moeten blijven. Door op document niveau te classificeren in plaats van op archiefniveau, kan het systeem nauwkeurig bepalen welke delen van een dossier vernietigd en welke opgeslagen moeten worden. Dit voorkomt verkeerde behandeling van documenten en vermindert zowel juridische risico’s als opslagkosten.
Na het onderzoeken van mogelijke methodieken in de literatuur, is de keuze gevallen op het gebruik van machine learning-modellen en deep learning gebaseerde LLM’s (Large Language Models) om de tekst te classificeren die door middel van OCR-technieken uit ingescande PDF bestanden is geëxtraheerd. Hierbij zijn twee componenten ontwikkeld: het segmentatiemodel, dat een dossier opsplitst in losse, bijbehorende documenten, en het classificatiemodel, dat per document bepaalt of het vernietigd of bewaard moet worden. Daarnaast is een derde model ontwikkeld: een regelgebaseerd informatie-extractiemodel dat belangrijke metadata uit de teksten haalt en opslaat, zoals datums, personen en organisaties. Deze metadata ondersteunt het globale proces door extra gegevens te bieden die nodig zijn voor nauwkeurige classificatie.
De segmentatie- en classificatiemodellen zijn geoptimaliseerd tot een F1-score van 0.92. Dit betekent dat ons systeem met een hoge mate van betrouwbaarheid in staat is om documenten correct te segmenteren en te classificeren. Concreet betekent dit dat het systeem 92% van de documenten juist identificeert, wat een uitstekende prestatie is. Het zorgt ervoor dat documenten op de juiste manier worden verwerkt, zodat we voldoen aan de wettelijke vereisten en efficiënt omgaan met onze archieven.
Het informatie-extractiemodel heeft een cumulatieve nauwkeurigheid van ongeveer 91% voor het herkennen van geboortedatums. In de meeste gevallen kunnen echter met een nauwkeurigheid van meer dan 99% de juiste datums worden gevonden. Dit stelt ons in staat om te bepalen wanneer de accuratere methode kan worden toegepast, afhankelijk van de context en de vereiste precisie.
Vanwege de positieve resultaten en de potentiële impact van de segmentatie- en classificatiemodellen, zal vervolgonderzoek worden uitgevoerd. Dit onderzoek zal gericht zijn op verdere optimalisatie van de modellen en hun praktische implementatie, om te zorgen dat ze naadloos aansluiten bij bestaande systemen en processen.
Ben je geïnteresseerd in het schrijven van je scriptie bij ons? Ben je enthousiast over de mogelijkheid om deel uit te maken van het Data Science & AI team van PNA? Lees meer over onze toekomstige projecten!