Handschriftgeheimen ontrafeld | Technisch Weekblad
Nieuws

Handschriftgeheimen ontrafeld

De Amerikaanse terrorist die in 2001 antraxbrieven schreef, bracht de Groningse hoogleraar kunstmatige intelligentie Lambert Schomaker naar de Middeleeuwen.

De door zijn onderzoeksteam ontwikkelde technieken voor automatische handschriftanalyse, in eerste instantie bedoeld voor het forensisch onderzoek, werden uiteindelijk vooral opgepikt door paleografen, onderzoekers van oude handschriften. Tijdens een congres op 5 en 6 februari in Maastricht presenteerden deze paleografen hun resultaten.

Schomaker bedacht dat het herkennen van afzonderlijke letters in een handschrift niet werkt. ‘Een geschreven woord is vaak niet meer dan een krabbel inkt zonder duidelijk herkenbare letters. Deze krabbel bevat echter genoeg informatie voor digitale herkenning van het hele woord’, aldus Schomaker. Die herkenning gebeurt door het meten van hoeken en krommingen in het gescande inktspoor. Ook variaties in de dikte van de lijnen spelen een rol. Schomaker: ‘Elke schrijver houdt op zijn eigen specifieke manier een pen of ganzenveer vast. Zijn identiteit is daardoor af te leiden uit de geometrie van zijn inktspoor.’ Het onderzoek leverde GIWIS op, het Groningen Intelligent
Writer Identification System. GIWIS analyseert en vergelijkt meetkundig handschriften om ze vervolgens op statistische basis aan een schrijver toe te kennen.

Paleografe Jinna Smit van de Universiteit van Amsterdam kreeg als eerste interesse voor GIWIS. Ze onderzoekt de veertiende-eeuwse archieven van de graven van Holland. Met het eigen oog en met GIWIS analyseerde ze 1.400 tekstfragmenten. Smit: ‘Het koste mij twee weken om de fragmenten in clusters met overeenkomstige handschriften in te delen. GIWIS deed dit in twee minuten.’ Smit ontdekte dat sommige schrijvers bladzijde na bladzijde vol schreven terwijl anderen dat maar af en toe deden. Juist dergelijke informatie zoeken historici. Wie schreef welke teksten? Smit: ‘De analyse van handschriften is de enige manier om meer te leren over de organisatie van de kanselarij, het schrijfbureau van de graven.’

Middeleeuwse teksten bevatten vaak geen datum. Petros Samara van de Universiteit van Amsterdam werkt aan de Medieval Paleographic Scale (MPS), een systeem dat teksten kan dateren. Handschriften veranderen met de tijd. Lettervormen raken in en uit de mode en dit heeft zijn invloed op de gemiddelde hoeken en krommingen in het inktspoor. Samen met de groep van Schomaker koos Samara gedateerde handschriften met ongeveer 25 jaar tussenpoos. Hieruit maakten ze een database met meetkundige eigenschappen van deze teksten. Samara: ‘De periode van 25 jaar komt overeen met een generatie schrijvers. Zo’n generatie begrenst de nauwkeurigheid van de database.’ Schomaker: ‘Na één jaar onderzoek kan MPS handschriften dateren met een nauwkeurigheid van 25 tot 40 jaar.’

Archieven vol handschriften zijn nauwelijks geïndexeerd, wat het zoeken in teksten bemoeilijkt. Samen met het Nationaal Archief ontwikkelde Schomaker en zijn medewerkers Monk, een zelflerend systeem dat woorden in handschriften herkent. Schomaker: ‘Monk begint zonder kennis. Een gebruiker scant een tekst, markeert enkele leesbare woorden en uploadt de data naar ons high performance computer centrum. De volgende dagen krijgt de gebruiker lijsten met herkende woorden waarbij hij aangeeft welke goed zijn. Uiteindelijk ontstaat een sneeuwbaleffect en herkent Monk ineens heel veel woorden.’

‘In twee weken tijd en met beperkte menselijke input, herkende Monk tienduizenden woorden in het archief van de Staten Generaal uit 1627. Die woorden indexeren we via Google waarna de gescande teksten met Google te doorzoeken zijn’, vervolgt Schomaker. Monk werkt taalonafhankelijk, het systeem herkent immers geen taal, maar alleen de meetkundige patronen van een krabbel, een geschreven woord. Monk indexeerde al 40.000 pagina’s tekst waaronder de dodezeerollen.

Het eigen handschrift scannen en herkennen is interessant voor mensen die veel met de hand schrijven. Hedendaagse software voor handschriftherkenning bakt echter niks van snel geschreven aantekeningen. Schomaker: ‘De trainbaarheid van dergelijke commerciële software zal beter worden. De softwareproducenten moeten dan wel overstappen van de handschriftanalyse op de thuiscomputer naar analyse in de cloud in krachtige rekencentra.’ Daarmee zijn we terug in het heden, de tijd waarin onderzoekers meer willen weten over de identiteit van middeleeuwse schrijvers en moderne terroristen.

www.ai.rug.nl/~lambert