Story

AI laat wetenschappers toveren met taal

"Ik kan me geen tijd herinneren dat ik niet in taal geïnteresseerd was”, zegt linguïst Antal van den Bosch. “Het is een instrument met wonderlijke eigenschappen. Wanneer ik op de middelbare school een nieuwe taal leerde, kreeg ik een soort sleutel in handen tot een andere wereld.” Tegenwoordig vindt hij de magie in kunstmatige intelligentie.

04 juni 2024

Actueler kun je het niet bedenken: Antal van den Bosch is als hoogleraar aan de Universiteit Utrecht gespecialiseerd in large language models zoals ChatGPT. Tegelijk geeft hij bij NWO leiding aan het domein Sociale en Geesteswetenschappen.

We mogen dus spreken van een succesvolle carrière. Maar niet zonder enige tegenwind, stelt Van den Bosch. “Als zuiderling werd ik geconfronteerd met de tweederangsrol die onbewust wordt toegekend aan niet-standaardvarianten van het Nederlands. Taal kan verbinden, maar ook verdelen.”

Antal van den Bosch onderaan trap kijkt naar boven — “In AI is altijd al veel aandacht voor taal geweest"

Extreme variant

Vanuit zijn interesse in taal was de studie Taal- en Literatuurwetenschap voor Van den Bosch een logische keuze. Als student in Tilburg kwam hij voor het eerst in aanraking met kunstmatige intelligentie. “In AI is altijd al veel aandacht voor taal geweest. Een van de oudste ambities is de Turing Test: dat je als mens niet meer merkt dat je met een computer communiceert.”

“Ik heb twintig jaar moeten uitleggen wat ik aan het doen was”

"In de tijd dat ik studeerde, was er plotseling een doorbraak in AI. Machine learning maakte ongekende dingen mogelijk. We zijn dat in Tilburg toen gaan toepassen op taal, met een steeds grotere onderzoeksgroep. De meest extreme variant van dit soort machine learning is een groot taalmodel dat alleen maar gevoerd wordt met gigantische hoeveelheden tekst en dan uitzoekt welke patronen daarin zitten, zodat het daarna tekst kan genereren.”

“Dat model is steeds mijn doel geweest. Ik werk er eigenlijk al aan sinds het begin van dit millennium, toen ik mijn eigen groep begon en mijn eigen subsidies binnenhaalde.”

Onderwijs als vaste basis

Dat lijkt een slimme keus, gezien het succes van large language models als ChatGPT. “Nou ja, ik heb twintig jaar moeten uitleggen wat ik aan het doen was. Veel mensen vonden het een heel extreme benadering. Subsidies droogden geregeld op, maar het voordeel van de academische wereld is dat onderwijsprogramma’s heel lang draaien. Daardoor is er een vaste basis van mensen die we hebben weten te behouden voor de wetenschap. Die doceren al vijfentwintig jaar of langer AI.”

“Je kunt belanden in een doemscenario waar steeds meer wetenschap kunstmatig wordt gegenereerd”

Wat ook helpt, is de beschikbaarheid van adequate computerfaciliteiten. Van den Bosch werkt zelf met de nationale supercomputer Snellius bij SURF voor het trainen en testen van large language models.

Honderd procent transparant

Anno 2024 wil SURF dit nationale potentieel gebruiken om een eigen GPT-NL te ontwikkelen. Ziet Van den Bosch daar wat in? “Ja, zeker wel. Er is momenteel een soort ongeorganiseerde wedloop van taalmodellen gaande. Grote techbedrijven doen hun best om betere meertalige modellen te produceren, maar tegelijk zijn er ook allerlei non-profits bezig, slimme knutselaars bij overheidsinstellingen, en natuurlijk wetenschappers.”

“Wat je als SURF kan doen, met TNO, het Nederlands Forensisch Instituut en een hoop input uit de academische wereld, is van meet af aan honderd procent transparant en kritisch te werk gaan bij de samenstelling van de trainingsset. Dat is dan echt een unieke feature.” Een van de grootste problemen van AI is immers onduidelijkheid over het materiaal waarmee systemen worden getraind.

“Maar over een paar jaar zul je met diezelfde aanpak wel een volgende versie van GPT-NL moeten ontwikkelen. Anders word je rechts op de vluchtstrook ingehaald door iets wat efficiënter en dus sneller is. Je ziet het in iedere digitale infrastructuur, maar bij AI is het tempo extreem hoog.”

Portret Antal van den Bosch — "Ook in de onlinewereld blijft het draaien om mensen: hun bekendheid en verbondenheid. Het is dus belangrijk dat een AI-tool dit ook herkent.”

Kwaliteit herkennen

Intussen leidt Van den Bosch ook andere AI-projecten, zoals BETTER-MODS. “De nieuwssite Nu.nl heeft een fors team van moderatoren dat al jarenlang de handen vol heeft aan het tijdig verwijderen van toxische reacties onder artikelen. Tegelijk moeten ze uit de soms wel duizend reacties ook enkele goede, constructieve bijdragen selecteren, die dan als eerste worden getoond. BETTER-MODS moet daarbij helpen.”

Het herkennen van kwaliteit is geen eenvoudige opgave voor een AI-tool, maar het is gelukt. “Niet voor honderd procent, maar uit tests blijkt dat we het gedrag van menselijke moderatoren redelijk goed kunnen nabootsen.”

Hoe het werkt? “Ons beste systeem let vooral op de vormaspecten van reacties. Goede bijdragen zijn vaak lang, omdat ze een redenering of uitgewerkte gedachte bevatten. Het systeem kijkt ook – net zoals de menselijke moderatoren dat doen – naar de afzenders. Er is namelijk een online gebruikersgroep ontstaan waarbinnen sommige mensen hun gedachten zo samenvatten dat deze goed aansluiten bij de journalistieke content. Die gebruikers worden in hun rol erkend door moderatoren en medegebruikers. Dat zie je op allerlei platformen, want ook in de onlinewereld blijft het draaien om mensen: hun bekendheid en verbondenheid. Het is dus belangrijk dat een AI-tool dit ook herkent.”

“In de praktijk ben je als wetenschapper meestal bezig met falen”

Doemscenario

Je kunt veel aan AI overlaten, maar voor Van den Bosch zijn er grenzen. Die liggen bijvoorbeeld bij het reviewen van papers voor conferenties. “Onderzoekers hebben ontdekt dat veel van die reviews in 2023 geschreven leken te zijn door computers. Reviewers kwamen kennelijk in tijdnood en riepen de hulp van AI in. Maar dat viel op: plotseling waren veel reviews heel positief en hun taalgebruik was typerend voor Chat-GPT.”

Het baart hem zorgen. “Er verschijnen nu hooggespecialiseerde taalmodellen die bijvoorbeeld claimen heel goed te zijn in het juridische domein. Wat gebeurt er als papers gegenereerd worden door die AI, terwijl de beoordelaars ervan daar óók gebruik van maken? Dan beland je in een doemscenario van circulaire processen, waar steeds meer wetenschap kunstmatig wordt gegenereerd.”

Vanuit zijn functie bij NWO, dat verantwoordelijk is voor een groot deel van de onderzoeksfinanciering in Nederland, vindt Van den Bosch het belangrijk om daarbij stil te staan “We kunnen en willen niet tegenhouden dat onderzoekers AI gebruiken, ook als ze een aanvraag schrijven, als ze daar maar transparant over zijn. Maar in het beoordelingsproces willen we het écht niet hebben.”

Maatschappelijke uitdagingen

Wat vindt Van den Bosch nog meer belangrijk voor NWO?“Interdisciplinair onderzoek! Binnen ‘mijn’ domein en met andere domeinen. Dat is misschien mijn meest uitgesproken ambitie. Gelukkig ben ik niet de enige met die wens.”

“In het verleden vonden ministeries en bedrijven moeilijk de weg naar de sociale en geesteswetenschappen, maar ik denk dat corona iets wakker heeft gemaakt. De pandemie begon immers als een medisch probleem, maar heel snel kwamen er vragen die beter beantwoord konden worden door tal van andere disciplines, zoals taal- en communicatiewetenschappen, psychologie, sociologie, organisatiewetenschappen, economie, recht, geschiedenis , ethiek, filosofie … Eigenlijk heb je bij iedere grote maatschappelijke uitdaging de sociale en geesteswetenschappen nodig. Want uiteindelijk is ook wetenschap iets van mensen voor mensen.”

Toverformule

En toch … als je Van den Bosch vraagt wat hem het meeste boeit in zijn werk, wordt de techneut in hem wakker. “Dat een informatica-idee het echt doet als je het goed programmeert. Als een toverformule die blijkt te werken. Want in de praktijk ben je als wetenschapper meestal bezig met falen. Dat geldt net zo hard voor de mensen bij OpenAI: die hebben jarenlang zitten knoeien, voordat ze bij de honderdste poging op het technische idee kwamen dat ChatGPT mogelijk maakte. Als het dan toch een keer lukt, is dat echt geweldig.”

Antal van den Bosch (1969)

1997-2011: achtereenvolgens postdoc, universitair (hoofd)docent en hoogleraar Universiteit Tilburg
2011-2019: Hoogleraar Radboud Universiteit
2012: Benoemd tot lid van de KNAW
2017-2022: directeur Meertens Instituut
2020: benoemd tot bijzonder hoogleraar Taal en Kunstmatige Intelligentie aan de Universiteit van Amsterdam
2022: benoemd tot hoogleraar aan de Universiteit Utrecht

Meer weten?

Tekst: Aad van de Wijngaart
Foto’s: Jelmer de Haas

Interesse in meer persoonlijke verhalen over de impact van onze innovaties?

Bekijk alle SURF Story's

Gerelateerde onderwerpen:

Artificial intelligence

Snellius: de Nationale Supercomputer