Story

De schepping van de (virtuele) mens

Hoe maak je een geloofwaardige virtuele mens? Dat is de onderzoeksfocus van Zerrin Yumak, universitair docent bij de Human-Centred Computing Group van de Universiteit Utrecht en directeur van het Motion Capture and Virtual Reality Lab. Zerrin was keynote spreker op de XR Day op 3 juli. "Ik probeer alle nuances van non-verbale communicatie te vatten."

20 juni 2024

"Fascinerend hoe mijn 2-jarige groeit en zich ontwikkelt. Hoe snel baby's leren en taal oppikken in vergelijking met AI-algoritmen is een openbaring."

"Mijn onderzoeksgroep probeert menselijk gedrag na te bootsen, en mensen zijn zo complex. Dat heeft me vanaf het begin gefascineerd in dit vakgebied: je leert ook veel over sociaal gedrag. Wat me op dit moment ook zeer fascineert, is hoe mijn kind van 2 groeit en zich ontwikkelt. Het is een openbaring hoe snel baby's leren en taal oppikken in vergelijking met AI-algoritmen. Machines zijn geavanceerde rekenmachines, maar kunnen niet leren zoals mensen."

Autonome machines

Zerrin werd geboren in Turkije, waar ze technische bedrijfskunde studeerde, maar de vakken op he gebied van computerwetenschappen vond ze het leukst. "In die tijd las ik Artificial Intelligence, A Modern Approach van Stuart Russel en Peter Norvig, het beroemdste boek over AI. Ik raakte geïntrigeerd door het idee van autonome machines."

Zerrin Yumak at work behind her computer — "Ik was geïnteresseerd in het visuele aspect omdat het AI verandert van iets abstracts in iets concreets"

"Ik wilde meer leren, en ik houd ervan om ergens diep in te duiken. Dus zocht ik naar promotieplaatsen op dit gebied. Ik wilde mijn horizon verbreden door naar het buitenland te gaan, en ik vond een leuk lab aan de Universiteit van Genève. Het was perfect voor mij omdat het computergraphics, animatie en AI combineerde. Ik was geïnteresseerd in het visuele aspect omdat het AI verandert van iets abstracts in iets concreets."

Directe invloed op mensen

In Genève werkte Zerrin ook aan een door de EU gefinancierd project rond humanoïde, sociale robots die in een museum rondliepen en interactie hadden met bezoekers. "Zeer interdisciplinair werk; er waren zowel technische en computerwetenschappen als sociale wetenschappen voor nodig. Ik kon de directe impact op mensen zien van de algoritmen die ik aan het ontwikkelen was. Zo is het allemaal begonnen."

Na haar promotie in computerwetenschappen werkte ze als postdoc aan het Swiss Federal Institute of Technology in Lausanne en daarna als research fellow aan de Nanyang Technological University in Singapore. In het voorjaar van 2015 verhuisde ze naar Nederland. Dankzij haar internationale carrière ervoer ze de verschillen in academische culturen. "De onderzoeksagenda van een land wordt vaak bepaald door de waarden van die specifieke cultuur. In het Oosten en de VS ligt veel nadruk op technologie en techniek. In Europa ligt de nadruk meer op sociale en publieke waarden, en hoe technologie het leven van mensen raakt."

"Nederland moet niet alleen maar consument van AI-technologie zijn. Het is duurzamer om ons te richten op technologieontwikkeling en het integreren van publieke waarden in onze AI-producten."

"Ik denk niet dat de ene aanpak beter is dan de andere. Balans is de sleutel. AI-technologie ontwikkelen zonder grondig na te denken over de impact op het leven van gebruikers kan schadelijk zijn. Je alleen richten op sociale aspecten en de technologische ontwikkeling verwaarlozen is ook geen duurzame weg, want dan word je slechts een consument van de technologie. Je eigen technologie ontwikkelen betekent ook dat je je eigen waarden in de AI-producten kunt verwerken."

Sociaal en emotioneel gedrag

Dit snijvlak van mens en technologie is precies Zerrins onderzoeksfocus. Haar huidige onderzoek in Utrecht gaat over geloofwaardige virtuele mensen en sociale robots. Ze werkt aan computationele modellen van sociaal en emotioneel gedrag en expressieve karakteranimatie waarbij methoden uit computergraphics, kunstmatige intelligentie en mens-computerinteractie worden gecombineerd.

Zerrin Yumak attaches sensors on a person dressed in black at the motion capture lab — In het Motion Capture and Virtual Reality Lab voeren acteurs natuurlijke gesprekken en leggen onderzoekers hun gezichtsuitdrukkingen en lichaamsbewegingen vast met sensoren.

"Natuurlijk hebben robots een aantal hardwarebeperkingen: ze kunnen niet vrij bewegen en niet iedereen kan er een bezitten. In Utrecht richt ik me dus meer op 3D digitale mensen, omdat die makkelijker inzetbaar zijn en dus een groter publiek bereiken en meer impact hebben dan sociale robots. Maar ze delen vergelijkbare algoritmes."

Grenzen verleggen

Deze 3D digitale mensen, vergelijkbaar met gamepersonages, komen tot leven via een VR-headset. "We verleggen echt de grenzen om realistisch uitziende personages te creëren. Het Motion Capture and Virtual Reality Lab van de Universiteit Utrecht is uniek in Nederland. Hier voeren acteurs natuurlijke gesprekken en leggen we hun gezichtsuitdrukkingen en lichaamsbewegingen vast met sensoren. Vervolgens gebruiken we deze gegevens om de bewegingen in de computer te reproduceren, met behulp van deep learning-algoritmen."

"We kunnen alles vastleggen: gezichtsuitdrukking, hoofd-, lichaams-, hand- en vingerbewegingen, en de bijbehorende audio. Als mensen praten, zenden ze allemaal kleine, non-verbale signalen die onze waarneming en hoe we communiceren beïnvloeden. Deze bewegingen zijn ook gerelateerd aan de context en de stemming en persoonlijkheid van een persoon. Ik vind het belangrijk om alle nuances van non-verbale communicatie te pakken te krijgen."

Portret Zerrin Yumak — "De afgelopen jaren hebben we snelle vooruitgang geboekt dankzij de ontwikkelingen in deep learning en generatieve AI-algoritmen"

Heilige graal

Een van haar onderzoeksdoelen is het genereren van digitale beweging door alleen audio-input te gebruiken. "Dat is het mooie van AI: het kan deze correlatie leren tussen audio en hoe we onze lippen, wenkbrauwen, wangen, hoofd en handen bewegen. De afgelopen jaren hebben we snelle vooruitgang geboekt dankzij de ontwikkelingen in deep learning en generatieve AI-algoritmen."

"Mijn groep doet meerdere onderzoeken waarbij we de emotionele signalen in audio analyseren en vertalen naar de spreekstijl van een persoon. Maar de heilige graal in ons vakgebied zou zijn om uiteindelijk verschillende gezichtsuitdrukkingen te genereren op basis van een tekstuele beschrijving. Niet alleen categorische emoties zoals blij en verdrietig, maar veel rijkere beschrijvingen van emoties die bijvoorbeeld uit romans worden gehaald: hoe kunnen we deze omzetten naar gezichtsuitdrukkingen?"

"Je zou een historische figuur als Einstein nieuw leven kunnen inblazen en hem vragen stellen. Dit kan heel nuttig zijn voor ervaringsgericht en blended learning."

"Er is nog veel te ontdekken. Alleen al de complexe kwestie van gezichtsuitdrukkingen vergt een promotieonderzoek. Een ander onderwerp waar ik me op richt is het verband tussen handgebaren en de semantische informatie in tekst. Wanneer je bijvoorbeeld een route beschrijft, wijs je vaak naar links of rechts. Dit soort rijke, betekenisvolle gebaren worden niet goed gegenereerd met de huidige AI-algoritmen. Een laatste aandachtsgebied is het realistischer maken van gezichten en kleding van personages en het modelleren van interacties tussen mensen onderling en tussen mensen en objecten. Elk van deze onderwerpen zijn echt grote onderzoeksvragen."

Gebrek aan 3D-data

Een van de belangrijke uitdagingen om dit veld verder te brengen is het gebrek aan data, legt Zerrin uit. "Voor 2D generatieve AI-toepassingen zoals Midjourney en ChatGPT is er een enorme hoeveelheid afbeeldingen en tekstgegevens. Voor 3D hebben we deze data nog niet. Virtual reality-omgevingen zijn nog niche. Op dit moment genereren we data met motion capture, maar dat is duur en je hebt er een speciaal lab voor nodig."

"Ik denk dat het publiek getraind moet worden in hoe AI werkt: uiteindelijk zijn het gewoon algoritmen en data."

Een andere uitdaging is dat deep learning-algoritmen meestal worden toegepast in het 2D-domein en dat er nog niet genoeg benchmarking is voor 3D-toepassingen. "Dit zijn black-box algoritmen, je weet niet precies wat er aan de hand is; waarom beweegt deze wang of wenkbrauw? Er is veel debugging, trial and error en trainingstijd nodig om de parameters te ontdekken."

Virtuele docenten

De toepassingsgebieden voor deze technologie in het dagelijks leven zijn volgens Zerrin erg breed. "In het onderwijs kunnen ze gebruikt worden als een soort studiegenoot of docent die kan meedenken of vragen kan beantwoorden, zodat studenten in hun eigen tempo kunnen leren. Je kunt digitale mensen ook gebruiken om simulaties te bevolken, een historische gebeurtenis bijvoorbeeld, of leerlingen meenemen naar de ruimte. Of historische figuren zoals Einstein nieuw leven inblazen en hen vragen stellen. Deze dingen kunnen heel nuttig zijn voor ervaringsgericht en blended learning."

Zerrin Yumak in the motion capture lab and an actor with a headset with a mobile phone attached to it on which he can see his facial expression — Ee is veel discussie over de ethische dimensies, zoals privacy, veiligheid en het gevaar van deep fakes

Auto's zijn ook gevaarlijk

Zerrin krijgt vaak vragen over de risico's van de technologie, en er is veel discussie over de ethische dimensies, zoals privacy, veiligheid en het gevaar van deep fakes. "Ons onderzoek gaat altijd langs de ethische commissie van de universiteit. Persoonlijk denk ik niet dat er veel is om je zorgen over te maken. Ik zie AI gewoon als een hulpmiddel. De manier waarop mensen het gebruiken moet echter wel gecontroleerd worden - gegevens en algoritmen mogen niet bevooroordeeld zijn, en je moet expliciet maken dat het geen echt mens is dat je ziet."

"Ik denk dat het publiek moet worden voorgelicht over hoe AI werkt. Die hondenrobots van Boston Dynamics zien er misschien een beetje eng uit, maar uiteindelijk zijn zelfs zij slechts een algoritme. Misbruik is mogelijk, maar dat geldt voor veel dingen. Auto's zijn ook gevaarlijk. Het maakt deel uit van de menselijke ontwikkeling, en we moeten zorgen dat we het goed doen."

Tekst: Josje Spinhoven
Foto's: Jelmer de Haas

Video: Making of the Motion Capture and Virtual Reality Lab

Meer persoonlijke verhalen over de impact van technologie lezen?

Zie alle SURF Story's

Gerelateerde onderwerpen:

XR (extended reality)