Q&A GPT-NL: Nederlands eigen open AI-taalmodel

Naar aanleiding van de ontwikkeling van "GPT-NL", een eigen open taalmodel voor Nederland, vind je hier een overzicht van veelgestelde vragen en antwoorden terug:

Q&A

Waarom ontwikkelt Nederland een eigen open taalmodel?

Een eigen Nederlands open taalmodel is nodig voor het ontwikkelen, versterken en bestendigen van de digitale soevereiniteit. We zetten zo een belangrijke stap te richting transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen en met respect voor eigenaarschap van data.

Wat is GPT-NL precies?

GPT-NL wordt een open taalmodel incl. een virtuele faciliteit die open staat voor partners die met data en kennis willen bijdragen of die toepassingen willen ontwikkelen op basis van GPT-NL. Zo kan het worden ingezet binnen zowel academische instellingen, door onderzoekers en door overheden. Het stelt hen in staat taalmodellen in het algemeen inclusief specifieke toepassingen op het gebied van veiligheid, gezondheid, onderwijs, dienstverlening en talrijke andere domeinen te onderzoeken en uit te proberen.

Welke partijen zijn betrokken?

SURF, TNO en NFI zijn de betrokken partijen in de realisatie van GPT-NL. Verder gaat co creatie met een breed aantal Nederlandse instellingen plaatsvinden en wordt gebruik gemaakt van reeds aanwezige expertise daar.

Welk budget?

Financiering van het model is afkomstig vanuit RVO/Ministerie van EZK. Het projectplan “Faciliteit voor een soeverein Nederlands taalmodel” is hiervoor in mei 2023 ingediend en eind oktober 2023 gegund. Voor het project komt een bedrag van 13,5 miljoen euro beschikbaar. Lees officiele bekendmaking.

Wat is de planning?

Het project bestaat uit twee fases: in het eerste jaar wordt het taalmodel ontwikkeld. De vervolgfase is die van exploitatie, waarbij voor de computerkracht een connectie met de supercomputer in Amsterdam is voorzien. Daarnaast ontwikkelt SURF een eigen implementatieplatform voor gebruik in onderwijs en onderzoek.

Wordt het model vanaf de grond opgebouwd?

We zullen de state-of-the-art modelarchitectuur hergebruiken. De training zelf zal echter waarschijnlijk vanaf de grond plaatsvinden om te voorkomen dat er onbekende factoren van eerdere modellen worden geërfd. Omdat de trainingsprocedure van de meeste modellen ondoorzichtig is, zou het gebruik van vooraf getrainde uitgangspunten de openheid van ons model beperken. Bovendien moeten we bij het trainen van een Nederlands model bovenop een voornamelijk Engelse basis rekening houden met vooroordelen.

Hoe open zal het model zijn?

We werken vanuit de intentie zowel de trainingsset als het model zo open mogelijk te verspreiden. Keuzes die tijdens de datacuratie worden gemaakt, zullen transparant zijn.

Gebruik van GPT-NL

GPT-NL wordt gehost in een virtuele faciliteit. Op deze manier kan het worden gebruikt door academische instellingen, onderzoekers en overheden, maar ook door bedrijven. Het stelt hen in staat taalmodellen in het algemeen te verkennen en uit te proberen, inclusief specifieke toepassingen op het gebied van veiligheid, gezondheid, onderwijs, dienstverlening en tal van andere domeinen.

Welke voordelen heeft GPT-NL voor wetenschappelijk onderzoek?

De waarde van het project ligt zowel in de ontwikkeling van het ecosysteem en de expertise als in het model zelf. Het versterken van deze kernexpertise zal de verantwoorde toepassing van de technologie en de algehele positie met betrekking tot commerciële modellen verbeteren. De virtuele faciliteit in dit project heeft tot doel het verantwoord gebruik van de technologie te democratiseren door experimenten en kennisdeling te faciliteren. Bovendien zal de release van de trainingsset ook de volgende generaties modellen ten goede komen.

Hoe duurzaam is dit taalmodel?

Wij houden rekening met duurzaamheid en CO2-uitstoot. Wij moeten verantwoordelijk zijn in ons gebruik van hulpbronnen. Samen met onze partners bouwen we het meest efficiënte taalmodel dat we kunnen bouwen op basis van het meest recente onderzoek; dit omvat discussie over zowel de omvang die het model zou moeten hebben als hoe de training en implementatie ervan kunnen worden geoptimaliseerd, gegeven die omvang. Zie ook https://www.surf.nl/en/energy-aware-computing hoe SURF in breder verband werkt aan energiebewust computergebruik.

Hoe wordt het model getraind?

Het model wordt getraind op een door SURF gehost computercluster. Het hele proces zal transparant zijn en bijdragen van relevante belanghebbenden nodig hebben met betrekking tot gegevensverzameling, curatie, modelvalidatie, enz. Bovendien staat het project in nauw contact met gespecialiseerde juridische experts om ons gedegen te helpen bij vragen rondom auteursrecht.

Overzicht media-aandacht

De ontwikkeling van GPT-NL heeft de aandacht getrokken van veel verschillende media, waaronder:

RTL Nieuws – “Nederland stopt 13,5 miljoen in Nederlandse versie ChatGPT”
Emerce - Nederland start bouw GPT-NL, als eigen AI-taalmodel
Trouw – Nederland zet met beperkte middelen in op eigen AI-taalmodel
AG Connect – Nederland werkt aan eigen alternatief voor ChatGPT
iBestuur – Nederland gaat een eigen open taalmodel ontwikkelen
Binnenlands Bestuur – Nederland bouwt eigen taalmodel
GÉANT – The Netherlands start realisation GPT-NL, its own open AI language model

Naast de traditionele media ging GPT-NL ook viraal op LinkedIN. met tientallen gedeelde berichten en internationale berichtgeving over dit aankomende model.