Opname van podcast met Thomas van Osch (r) en Sanne Koenen (l)
Podcast

Wat je moet weten over... GPT-NL

Het Amerikaanse ChatGPT had grote impact bij release. Nu werken TNO, het Nederlands Forensisch Instituut en SURF aan een Nederlands taalmodel; GPT-NL. Waarom dat hard nodig is en hoe we dat aanpakken vertelt Thomas van Osch, machine learning adviseur bij SURF.

Beluister de podcast nu in je favoriete app!

Outline van de podcast

1. Introductie (0:00 - 0:30)

  • Inleiding van de SURFshort-podcast door Sanne Koenen.
  • Gast: Thomas van Os, Machine Learning Advisor bij SURF.
  • Onderwerp: GPT-NL en de impact ervan.

2. Wat is GPT-NL? (0:31 - 1:48)

  • GPT-NL is een nieuw taalmodel, specifiek voor de Nederlandse samenleving.
  • Het model wordt volledig vanaf nul ontwikkeld, zodat de Nederlandse normen en waarden beter in het model worden verwerkt.
  • Doel: meer controle en autonomie in vergelijking met andere modellen zoals GPT-4, die getraind zijn op Amerikaanse data.

3. Voorbeelden van problemen met bestaande modellen (1:49 - 2:58)

  • Voorbeeld van ChatGPT dat foutieve antwoorden geeft, zoals de hoofdstad van Noord-Holland.
  • Het doel van GPT-NL is om beter in te spelen op Nederlandse waarden en gevoelige kwesties zoals de Zwarte Piet-discussie. 

4. Data en samenwerking (2:59 - 4:15)

  • Samenwerking met Nederlandse dataproviders, zoals bibliotheken, archieven, en gemeentes.
  • Belang van toegang tot Nederlandse data om een accuraat en representatief model te bouwen.

5. Voordelen voor instellingen (4:16 - 5:42)

  • Het model zal open source zijn en toegankelijk voor Nederlandse instellingen.
  • Voordelen: autonomie, vertrouwelijkheid en naleving van ethische en juridische regels zoals de GDPR. 

6. Regelgeving en de AI Act (5:43 - 6:56)

  • De nieuwe AI Act die bovenop de GDPR komt, zal meer transparantie en documentatie eisen over trainingsdata.
  • OpenAI en andere bedrijven zullen waarschijnlijk meer openheid moeten bieden over hun datastructuur.

7. Concurrentie met commerciële bedrijven zoals OpenAI (6:57 - 7:42)

  • GPT-NL zal zich meer richten op specifieke, Nederlandse toepassingen en normen.
  • Het doel is niet om beter te zijn in benchmarks, maar om relevant te zijn voor de Nederlandse maatschappij.

8. Team en prioriteiten (7:43 - 9:00)

  • Een divers team werkt aan GPT-NL, met expertise in technologie, ethiek en juridische zaken.
  • Prioriteit ligt bij dataverzameling en het bouwen van benchmarks die relevant zijn voor de Nederlandse context.

9. Voordelen voor onderzoek en onderwijs (9:01 - 9:58)

  • Onderzoek: GPT-NL biedt mogelijkheden voor Nederlands onderzoek en experimenten.
  • Onderwijs: het model kan docenten en studenten voorlichting geven over hoe GPT-modellen werken.

10. Toekomstige verwachtingen (9:59 - 11:32)

  • Verwachting dat het eerste model begin 2025 wordt gepubliceerd.
  • Het model zal stapsgewijs verder ontwikkeld worden met versies die specifieker zijn voor verschillende taken, zoals instructie of chatten.

11. Tips voor verdere verdieping (11:33 - 12:50)

  • Technische tip: Hugging Face heeft een dataset genaamd Flying Web gepubliceerd, die nuttig is voor data-acquisitie en filtering.
  • Leestip: het korte verhaal The Last Question van Isaac Asimov, een sciencefictionklassieker over de toekomst van technologie. 

GPT-NL: een taalmodel op maat voor Nederland

Nederland staat aan de vooravond van een revolutie op het gebied van taalmodellen. In de nieuwste aflevering van onze SURFshort-podcast vertelt Thomas van Os, Machine Learning Advisor bij SURF, over GPT-NL: een project om een taalmodel specifiek voor Nederland te ontwikkelen. Wat maakt GPT-NL anders dan bestaande modellen, en waarom is het zo belangrijk voor onze samenleving? In deze podcast hoor je wat GPT-NL is, waarom het nodig is, en welke stappen er worden gezet om het te realiseren.

Waarom hebben we een eigen taalmodel nodig?

In de podcast legt Thomas van Os uit dat de meeste taalmodellen, zoals GPT-4 waar ChatGPT gebruik van maakt, getraind zijn op Engelstalige data die afkomstig zijn van Amerikaanse bronnen. Daardoor hebben de resultaten vaak een sterke Amerikaanse invalshoek of vooringenomenheid. Dat betekent dat ze niet altijd goed aansluiten bij de Nederlandse normen, waarden en culturele context. Thomas geeft als voorbeeld dat sommige modellen moeite hebben om correcte antwoorden te geven op vragen over Nederlandse steden, of gevoeligheden zoals de Zwarte Piet-discussie niet goed kunnen plaatsen. GPT-NL streeft ernaar om een taalmodel te bouwen dat deze nuances beter begrijpt en rekening houdt met de Nederlandse samenleving en cultuur.

Samenwerken voor de juiste data

Thomas benadrukt dat GPT-NL wordt getraind met specifiek Nederlandse data, verkregen via samenwerkingen met bibliotheken, archieven en overheidsinstellingen. Deze partnerschappen zijn volgens hem essentieel om ervoor te zorgen dat het model data gebruikt die representatief zijn voor Nederland. Het uiteindelijke doel is een Nederlands taalmodel dat op basis van lokale data kan antwoorden en advies kan geven dat relevant is voor onze maatschappij.

GPT-NL en de AVG: hoe zit het met privacy?

Tijdens de podcast bespreekt Thomas dat privacy en ethiek een centrale rol spelen bij de ontwikkeling van GPT-NL. Hij legt uit dat het model zich strikt houdt aan de Europese privacywetgeving (AVG). Dat houdt in dat de data zorgvuldig wordt geselecteerd en verwerkt om persoonlijke informatie te beschermen. Bovendien wordt er bij de ontwikkeling van GPT-NL rekening gehouden met de aankomende AI Act, die extra eisen stelt aan transparantie en documentatie van AI-systemen.

Wat maakt GPT-NL uniek ten opzichte van GPT-4?

In de podcast licht Thomas toe dat GPT-NL niet gericht is op het behalen van hoge scores op internationale benchmarks, in tegenstelling tot GPT-4. In plaats daarvan richt GPT-NL zich specifiek op Nederlandse toepassingen en context, zoals juridische termen of maatschappelijke kwesties. Dit betekent dat het model beter is afgestemd op de unieke behoeften van Nederland, zonder dat het probeert om de brede functionaliteit van commerciële modellen na te streven.

Ondersteuning voor onderzoek en onderwijs

Thomas vertelt ook over de toepassingen van GPT-NL binnen onderzoek en onderwijs. Hij benadrukt dat een taalmodel dat is afgestemd op de Nederlandse taal en cultuur bijzonder nuttig kan zijn voor wetenschappers en studenten. Dit is bijvoorbeeld merkbaar bij het automatisch samenvatten van Nederlandstalige wetenschappelijke artikelen of het uitleggen van complexe juridische concepten in begrijpelijke taal. De inzet van GPT-NL voor dit soort situaties draagt bij aan betere toegankelijkheid van kennis en ondersteunt het onderwijssysteem.

Een blik op de toekomst: wanneer komt GPT-NL beschikbaar?

Volgens Thomas wordt het eerste model van GPT-NL verwacht in 2025. Daarna zal het taalmodel stapsgewijs verder worden ontwikkeld. Hij legt uit dat er verschillende versies komen die zich richten op specifieke taken, zoals tekstgeneratie voor chatbots of instructies geven. Op deze manier kan het model in de toekomst verder worden verfijnd om aan te sluiten bij de behoeften van verschillende sectoren.

Tip voor ontwikkelaars: Hugging Face en de Flying Web-dataset

Voor wie zelf aan de slag wil met AI en taalverwerking, adviseert Thomas Hugging Face als goed startpunt. Dit platform biedt een grote verzameling opensourcetools en datasets voor het trainen en verbeteren van AI-modellen. Eén van deze datasets is de Flying Web-dataset, die helpt bij het verzamelen en filteren van webgegevens – een essentieel proces voor het ontwikkelen van slimme taalmodellen. Hugging Face biedt daarnaast uitgebreide tutorials en hulpmiddelen om je op weg te helpen.

Elke maand praten we je met een nieuwe SURFshort in 15 minuten bij over de technologische ontwikkelingen in onderwijs en onderzoek. 

Luister meer podcasts

Gerelateerde onderwerpen: