Nieuws

5 vragen over GPT-NL, het open Nederlandse taalmodel 

GPT-NL: een transparant taalmodel, gekweekt op eigen bodem. Tijdens een webinar op 27 juni gaf projectmedewerker Duuk Baten van SURF een update over dit project, dat wij in november 2023 lanceerden. Ook jij kunt meebouwen aan GPT-NL: we zijn op zoek naar data om GPT-NL op te trainen.  

10 juli 2024

1. Wat is GPT-NL ook alweer? 

Samen met partners TNO en NFI en met financiering van het ministerie van EZK werkt SURF aan een Nederlands large language model: een algoritme dat tekst genereert dankzij generatieve kunstmatige intelligentie. Oftewel: een eigen taalmodel, zoals de technologie achter ChatGPT heet, maar dan gebaseerd op de Nederlandse taal en cultuur. Het taalmodel kan straks in diverse applicaties ingebouwd worden door zowel SURF als partners TNO, NFI en de overheid.  

2. Wat is GPT-NL niet?  

Het doel van GPT-NL is niet het ontwikkelen van een Nederlands alternatief voor een chatbot zoals ChatGPT. ChatGPT is namelijk een chatapplicatie die door OpenAI als dienst wordt aangeboden aan individuele eindgebruikers. De onderliggende technologie van zo’n chatbot is een taalmodel, in het geval van OpenAI zijn dat bijvoorbeeld GPT-3.5 of GPT-4. Het doel van GPT-NL is het bouwen van die onderliggende technologie, een taalmodel dus, maar dan specifiek voor de Nederlandse taal. Zo’n model kan vervolgens ingebouwd worden in verschillende diensten of toepassingen binnen de overheid, het bedrijfsleven, of de SURF-dienstverlening.

De functionaliteiten van het GPT-NL-model zullen vergelijkbaar zijn met andere taalmodellen (bijvoorbeeld documenten samenvatten, teksten in begrijpelijk taal omzetten of informatie ophalen uit de eigen organisatie), maar dit hoeft niet per se via een menselijk aanvoelende chat te gebeuren, zoals bij ChatGPT. Het is wel mogelijk om een chat-interface op GPT-NL te bouwen.

In vergelijking met de miljardenbudgetten van de bedrijven achter ChatGPT en andere commerciële modellen is het budget van 14 miljoen euro voor GPT-NL vrij klein. Daarom richt GPT-NL zich alleen op tekst en niet op audio en beeld.

3. Waarom een eigen taalmodel? 

Bestaande modellen zijn vooral getraind op Amerikaanse of Chinese data en dat bepaalt de (vooringenomen) resultaten. De modellen reproduceren bovendien stereotypen rond bijvoorbeeld gender en etniciteit. Wij willen een model dat op de Nederlandse taal en Nederlandse waarden is getraind.  
Bestaande taalmodellen zijn niet open: we hebben geen zicht op welke keuzes zijn gemaakt en op welke data ze zijn getraind.  
We willen voldoen aan wetgeving rond auteursrecht en AVG. 
De concentratie van deze expertise bij een beperkt aantal bedrijven is ook een risico voor een open discussie over de risico's en mogelijkheden van de technologie. Het project wil die discussie een beetje op gang brengen.

“Dit betekent niet dat wij het perfect gaan doen, ongetwijfeld gaan we ook fouten maken. Maar we geloven wel dat we een model kunnen ontwikkelen met enorme toegevoegde waarde. Een betrouwbaar, robuust en ethisch model dat zich houdt aan de wet.”
Duuk Baten

4. Wat zijn de ambities en planning?

Op dit moment zijn we hard bezig met dataverzameling. Uiterlijk begin 2025 gaan we het model trainen.
We bouwen een Nederlands-Engels taalmodel (datasets uit het Vlaams, Fries of andere varianten van het Nederlands zijn ook welkom).
We bouwen het model van de grond af op en bouwen dus niet voort op een bestaand taalmodel.
We trainen dat taalmodel met data waar we recht op hebben.
We zorgen voor een dataset die vrij is van persoonlijke, vertrouwelijke en/of sensitieve gegevens
We zijn transparant over de keuzes die we maken, we maken onze codes openbaar en we delen onze kennis en ervaringen.
We denken na over een businessmodel waarin GPT-NL beschikbaar komt voor zowel publieke als private partijen en voor onderwijs- en onderzoeksinstellingen.

Zie ook: gpt-nl.nl/commitments

5. Hoe kan ik bijdragen aan de ontwikkeling van GPT-NL?

GPT-NL vraagt om samenwerking en een open discussie. Alleen samen kunnen we GPT-NL bouwen! De ontwikkelaars hebben hulp nodig bij onder meer het verzamelen van gevarieerde en rijke datasets. Ook willen we graag weten welke toepassingen de SURF-community waardevol vindt voor onderwijs en onderzoek. Denk hierbij aan het ontwikkelen van onderwijsmiddelen, AI-geletterdheid bevorderen, ingeleverd werk beoordelen, coaching van studenten en onderzoek.

Wil je bijdragen? Doneer je data.

Meer weten?

Ga naar de projectwebsite https://gpt-nl.nl

Verder luisteren

Podcast SURFshort: Wat je moet weten over GPT-NL

Gerelateerde onderwerpen:

Artificial intelligence