Afbeeldingsonderschrift generaties ​

Archieven bestaan al zolang we informatie op papier schrijven. Dit betekent ook dat het proces heel ouderwets begon, met het gebruik van papieren dossiers. Tegenwoordig, in het digitale tijdperk, is het gebruik van papieren dossiers zeer inefficiënt voor organisaties. Iemand die op zoek is naar een specifiek dossier moet namelijk eerst kamer binnen, alle dossiers in die kamer doornemen en het juiste dossier eruit pikken. Dit proces zou relatief veel tijd in beslag nemen, die besteed zou kunnen worden aan meer uitdagende taken. Als het archief in een digitale omgeving zou bestaan, zou dit proces minder veeleisend en eenvoudiger zijn.

Een Nederlandse organisatie (die niet bij naam genoemd kan worden vanwege de gevoeligheid van hun werk) heeft dit denkproces ook gevolgd en is begonnen met het digitaliseren van de archieven. De specifieke taak om de beelden van dit archief van onderschriften te voorzien werd gedelegeerd aan Aurelia van den Berg, die deze taak op zich nam voor haar Bachelor eindproject. Deze bijschriften zouden dan gebruikt worden om de afbeeldingen beter doorzoekbaar te maken na de digitalisering, door objecten en details van de afbeeldingen te bevatten die de afbeelding goed en volledig beschrijven.

Om dit doel te bereiken, implementeerde Aurelia de zogenaamde Convolutional Neural Netwerk (CNN) en Long Short-Term Memory (LSTM) model. Het CNN-model zou de afbeelding analyseren en de kenmerken extraheren, zodat het LSTM-model de afbeelding kon herkennen en een zin kon genereren op basis van het meest waarschijnlijke volgende woord. Ze had een ‘aandachtsmechanisme’ aan dit model toegevoegd, dat de manier nabootst waarop een persoon een afbeelding zou analyseren en beschrijven, door meer aandacht te richten op de aspecten van de afbeelding die relevanter zijn dan andere.

Dit werd vervolgens vergeleken met een heel ander model, namelijk met Generative Pretrained Transform (GPT). GPT4o is gepubliceerd door het welbekende OpenAI en is openbaar beschikbaar. Het is een groot taalmodel (LLM) dat een op transformer gebaseerd model gebruikt om de afbeeldingen te analyseren. Door een goed werkende prompt uit te schrijven, konden we onderschriften genereren die de afbeeldingen beschreven.

Vervolgens vergeleken we de kwaliteit van de afbeeldingsonderschriften om uit te zoeken welke het beste zou werken binnen de context van archieffoto’s. Dit werd gedaan door middel van zowel automatische evaluatiemetrieken als het handmatig beoordelen van een kleiner aantal afbeeldingen met menselijke evaluatie.

Uiteindelijk vonden we de menselijke evaluatie relevanter, omdat hogere scores voor die afbeeldingen overeenkwamen met de onderschriften die wenselijk waren voor de Nederlandse organisatie. Deze bijschriften omvatten specifieke kleuren, kledingstukken en hun materialen, evenals de volledige achtergrond die in detail werd beschreven. Met behulp van deze details zou een gebruiker van het archief een afbeelding kunnen terugvinden op basis van het aspect dat hij zich herinnert.

Bij het vergelijken van de modellen troffen we dat het GPT4o model het hoogst scoorde in de menselijke evaluatie, de evaluatiemetriek die het belangrijkst was, en daarom werd het model geselecteerd. De andere modellen hadden vaak fouten in het tellen van objecten en kleuren, waardoor ze lager scoorden in de menselijke evaluatie.

Hoewel we verwachtten dat de technische metriek nuttig zou zijn, vonden we deze niet erg geschikt voor dit onderzoek. We verwachten dat dit kwam door de referentieonderschriften waarmee de gegeneerde onderschriften werden vergeleken, omdat we achteraf hadden geëvalueerd dat de referenties niet van de kwaliteit waren die we van de bijschriften verwachtten. Daarom zou het de moeite waard zijn om te kijken of we deze metrieken opnieuw kunnen berekenen, maar dan met betere referenties.

Nu het model is geselecteerd, zou de volgende stap zijn om het te optimaliseren voor deze organisatie, zodat geen enkel aspect wordt uitgesloten van wat ze nodig hebben in hun werk, evenals de daadwerkelijke implementatie van het onderschriftsysteem in de foto’s van hun archieven, zodat ze verder kunnen werken aan de digitalisering van hun archieven.

Status
Compleet 100%

Ben je geïnteresseerd in het schrijven van je scriptie bij ons? Ben je enthousiast over de mogelijkheid om deel uit te maken van het Data Science & AI team van PNA? Lees meer over onze toekomstige projecten!

Een goed gesprek over hoe wij u kunnen helpen?