Automatic simplifications of Dutch government letters

Nadine Beks van Raaij worked on simplifying complicated texts during her master's thesis at the Jheronimus Academy of Data Science. Specifically, texts sent from the government to citizens that are complicated to understand for most people.

Voor dit doel heeft Nadine verschillende ‘modellen’ ontwikkeld en getraind. Van een regel gebaseerd model tot aan een groot taalmodel. Deze modellen ontvangen een lastig te begrijpen tekst en vertalen deze naar een gemakkelijk te begrijpen tekst zonder dat de inhoud van de brief (en daarmee juridische geldigheid) verloren gaat. Om het probleem van vocabulaire aan te pakken, wat niet eenvoudigweg verandert kan worden naar eenvoudigere woorden, werd er een woordenlijst toegevoegd als input. Juridische termen bleven dus hetzelfde, maar werden in eenvoudigere termen uitgelegd voor de lezers, zodat ze de betekenis van het woord en de context eromheen kunnen begrijpen. 

Om deze modellen te vergelijken, heeft ze eerst technische evaluatiemethoden toegepast, waarbij de output van de modellen met de BLEU-, BLEURT-, ROUGE- en LiNT-scores werden geëvalueerd. De eerste drie zijn gangbare evaluatiemethoden voor tekstvereenvoudiging, de laatste specifiek voor de leesbaarheid van de Nederlandse taal.

She also conducted interviews with experts, both linguists and legal experts, to test whether that the simplified texts are grammatically and lexically correct and also contain the same content and are therefore legally valid.

Tot slot is er een lezersonderzoek gedaan onder mensen met verschillende achtergronden (in opleiding, leesuren, etc.) met een steekproefgrootte van 72 mensen, wat zorgt voor een prima vertegenwoordiging van de samenleving. Als resultaat vond ze dat het bekende GPT-model van OpenAI het beste presteerde ten op zichte van de andere modellen. 

The GPT model is a large language model (LLM), which therefore specializes in language-related issues. The GPT model was optimized by prompt engineering: giving the model a particular task, written in a specific way, so that the model clearly understands the goal and can deliver the desired results. This resulted in a model that specializes in simplifying government documents. 

Het GPT-model presteerde niet simpelweg iets beter dan de andere modellen; het slaagde erin om het begrip van de tekst bij de deelnemers te verhogen van 60% naar gemiddeld 90% voor drie verschillende brieven, een aanzienlijke verbetering! 

Thus, Nadine achieved her goal, and proceeded to implement the best model so that she can help as many people as possible and make a positive impact on their lives.

Status
Complete 100%

Ben je geïnteresseerd in het schrijven van je scriptie bij ons? Ben je enthousiast over de mogelijkheid om deel uit te maken van het Data Science & AI team van PNA? Lees meer over onze toekomstige projecten!

A good discussion about how we can help you?