Deelautomatisering van juridische analyseclassificatie

Nathanial Yzer heeft tijdens zijn bachelor thesis gewerkt aan het gedeeltelijk automatiseren van juridische analyseclassificatie. Juridische analyse biedt een methode om juridische constructies te structureren en een gemeenschappelijke taal te creëren. In wezen wordt een logisch model gecreëerd waaruit juridische scenario’s kunnen worden afgeleid. Deze scenario’s worden geclassificeerd met behulp van het JRM-classificatieschema en kunnen vervolgens worden geverbaliseerd.

Dit zorgt voor betere communicatie tussen experts, maar is tijdrovend. Door het gedeeltelijk automatiseren blijft er minder handmatig werk over, waardoor de experts zich kunnen focussen op andere onderdelen van hun vak.

Nathaniel heeft hiervoor het juridisch referentie model JRM 2.0 gebruikt, en heeft verder uitgezocht welke methoden geschikt zouden kunnen zijn om de analyseclassificatie te automatiseren. Hierbij bleek dat het hier ging om een probleem op het gebied van natuurlijke taalverwerking (NLP). Daarom heeft hij een verscheidenheid aan geschikte machine learning-modellen getest, waaronder logistische regressie, support vector machines, decision tree, random forest-model en een transformer-gebaseerd model. Dit zijn allemaal bekende modellen binnen de wereld van machine learning. De prestaties van deze modellen zijn geëvalueerd op basis van gangbare technieken voor tekstclassificatie: precisie, recall, F1-score, nauwkeurigheid, macro-gemiddelde en het gewogen gemiddelde.

Na het verzamelen van alle scores voor elk model, kwam Nathaniel erachter dat het logistische regressiemodel het best presteerde met de gekozen evaluatie methodes.

Alhoewel zijn onderzoek aantoonde dat dit model het beste werkte, was er nog ruimte voor verbetering. Niet alle juridische elementen werden namelijk even goed geclassificeerd. Daarnaast waren er nog mogelijkheden naast deze vijf modellen, waar zeker nog potentie in zat.

Na de afronding van Nathaniels onderzoek in 2023, zag PNA Group dus nog mogelijkheden en zette zij het onderzoek voort door dieper in de modellen te duiken en combineren met een groot taalmodel (LLM).

Een van de grootste uitdagingen van het onderzoek was het beperkte aantal beschikbare data, een probleem dat PNA Group blijft aanpakken door het model continu te trainen zodra er nieuwe data beschikbaar komt.

Status
Compleet 100%

Ben je geïnteresseerd in het schrijven van je scriptie bij ons? Ben je enthousiast over de mogelijkheid om deel uit te maken van het Data Science & AI team van PNA? Lees meer over onze toekomstige projecten!

Een goed gesprek over hoe wij u kunnen helpen?