Wat heeft de journalistiek aan kunstmatige intelligentie?

Ik ben altijd vrij sceptisch geweest over het nut van kunstmatige intelligentie voor datajournalistiek. De datasets die wij doorgaans gebruiken, zijn nog redelijk te behappen en over het algemeen prima met bestaande talen en programmatuur zoals Excel, R, SQL-achtige dingen of pandas te verwerken.

Toch begint mijn AI-scepsis langzaam wat af te nemen. Nu we bezig zijn om onze data-infrastructuur te professionaliseren, merk ik dat we soms wel wat extra’s kunnen gebruiken, een snufje kunstmatige intelligentie. Ik geef hier drie voorbeelden.

Vorige week hielden de onderzoekers van ASReview een hackathon met documenten die we hebben verzameld voor het project de Shell Papers. ASReview is een opensourcesoftware-pakket dat gebruikt maakt van active learning om in een enorme stapel documenten relevante publicaties te vinden. De gebruiker geeft aan wat hij of zij belangrijk vindt, het systeem vindt vervolgens documenten die inhoudelijk daarop lijken en biedt enkele daarvan ter beoordeling aan. Met de feedback – dit is wel/niet relevant – zoekt het systeem verder en komt tot een steeds meer verfijnde selectie.

Onder de motorkap wordt gebruikgemaakt van onder andere Natural Language Processing-technieken (NLP), een vorm van kunstmatige intelligentie waarbij de computer bijvoorbeeld entiteiten (namen, bedrijven) en onderwerpen uit tekst kan extraheren.

Voor ons zou zo’n systeem heel handig zijn. Voor enkele Wob-procedures verwachten we tien- tot enkele honderdduizenden documenten te ontvangen. Weliswaar gebruiken we e-discoverysoftware om daar makkelijk in te zoeken, maar wij denken dat ASReview ons kan helpen automatisch selecties te maken van documenten over hetzelfde onderwerp. Het is alsof je een hooiberg terug kan brengen tot een stapel balen, waarbij iedere baal een onderwerp is.

Hier zie je bijvoorbeeld een eerste poging daartoe.

Met Bureau Brussel willen we grote internationale onderzoeken uitvoeren, zoals bijvoorbeeld naar de Recovery Files of de Europese waterstofeconomie. Daarvoor is het belangrijk dat we met buitenlandse media samenwerken en kennis en documenten delen.

Eén van de vragen waar wij ons over buigen is: hoe kunnen we de inhoud van die documenten, die vaak in verschillende talen zijn opgesteld, voor alle deelnemende journalisten beschikbaar maken?

Wat we zoeken is iets dat:
Geautomatiseerd documenten kan clusteren naar onderwerp
Die documenten daarvoor automatisch kan vertalen

Of andersom, want moet je niet eerst vertalen voordat je kunt clusteren?

Je kunt daarvoor een ingewikkelde pipeline opzetten waarbij je de documenten eerst door Google Translate haalt en daar vervolgens Natural Language Processing op loslaat.

Ik moet eerlijk zeggen dat ik dit een technisch behoorlijk uitdagende taak vind. Maar ook hier kan ASReview uitkomst bieden. De onderzoekers, onder leiding van AI-hoogleraar Rens van de Schoot, bekijken of ze een vertaalplugin kunnen maken voor ASReview.

Als dit lukt dan is aan ons de schone taak om die plugin in ons eigen e-discoverysysteem te verwerken, of de datawarehouse Aleph, die we nu aan het opzetten zijn. Hierover zal onze developer Johan jullie binnenkort bijpraten.

Een terugkerende ergernis voor datajournalisten: werken met bedrijfsnamen. Stel je hebt een dataset van uitgekeerde onderzoeksgelden en -subsidies en een dataset van bedrijven die lid zijn van een lobbyvereniging. Dan wil je die twee datasets kunnen koppelen. Het liefste doe je dat op bedrijfsnaam (of een index, die naar zo’n bedrijfsnaam verwijst, maar dat is een andere zaak).

Het lastige is alleen dat bedrijfsnamen overal weer anders worden geschreven. Het bedrijf Shell kun je op tientallen verschillende manieren schrijven: Royal Dutch Shell, RDS, Koninklijke Shell, Shell NV, Shell N.V., of gewoon, Shell.

En dan hebben we het nog niet eens over allerlei toevoegingen in andere landen, zoals Shell Nigeria, Shell Ltd., Shell Inc.. Een computer zal deze verschillende namen niet als één en dezelfde entiteit herkennen. Die moet je dus slimmer maken.

Dit is een probleem waar we zo vaak tegenaan lopen dat we er eigenlijk een meer structurele oplossing voor willen vinden. En ook hier kunnen we kunstmatige intelligentie gebruiken, hoewel deze tools meer tot het domein van de statistiek horen (het onderscheid tussen AI en statistiek is niet altijd heel scherp).

Zo is er een aantal nuttige NLP-pakketten waarmee je een model kunt trainen om entiteiten zoals bedrijven te herkennen (SpaCy bijvoorbeeld). Of zijn er handige Pythonmodules (NLTK, fuzzywuzzy (die geen AI is)) om namen te normaliseren, zodat bedrijfsnamen zoveel mogelijk hetzelfde worden geschreven zodat je ze makkelijker kunt koppelen.

Ik zal jullie hier op de hoogte houden van hoe deze pogingen verlopen. En mocht je ideeën hebben voor toepassingen die voor ons nuttig zijn, dan horen we dat natuurlijk graag.

Nog een fijne dag,