Wat is een Generative Adversarial Network?

Verbeeldingskracht onderscheidt mensen van computers. Maar hoe lang houdt dit nog stand? Machines met verbeeldingskracht waren jarenlang onderwerp van sciencefictionboeken en Hollywood-films. Nu is de deksel van de doos. De geest is uit de fles. Wereldwijd groeit de aandacht voor generatieve AI-software en generative adversarial networks (GAN-systemen). Wat zijn deze generative adversarial networks? En hoe werken ze?

Kunstmatige intelligentie, machine learning, generatieve software en GAN-technologie hebben de afgelopen jaren een kwalitatieve groeispurt gemaakt. GAN-technologie is een veelbelovende ontwikkeling binnen deze generatieve AI-software. GAN-systemen benaderen in hoog tempo menselijke verbeeldingskracht. Hoe ver zijn GAN-systemen in het scheppen van eigen creaties en ideeën?

Het ontstaan van generative adversarial networks

Laten we beginnen bij het ontstaan van generative adversarial networks (GAN’s). De techniek is een paar jaar geleden ontwikkeld onder leiding van Ian Goodfellow. Ian Goodfellow is tegenwoordig onderzoeker bij Apple. Het woord generative in GAN, staat voor het genereren van content door kunstmatig intelligente systemen. Adversarial beschrijft de strijd tussen twee verschillende neurale netwerken. Dit heeft een wat vijandige klank, maar in geval van generative adversarial networks verbeterd deze samenwerking de kwaliteit van de output.

Hoe gaat dit in zijn werk?

De strijd in GAN-netwerken

Een GAN-systeem bestaat uit twee concurrerende neurale netwerken die samen nieuwe realistische output genereert. Het eerste neurale netwerk is het discriminative network. Ofwel de discriminator. Om tot nieuwe output te komen, geef je dit netwerk een grote dataset met trainingsgegevens. In onderstaand voorbeeld foto’s van hamburgers. Het netwerk leert uit deze verzameling wat een foto van een hamburger is.  

Het andere netwerk heet generative network. Deze generator werkt tegelijkertijd met de discriminator. De generator probeert output te creëren waarvan de discriminator dénkt dat die thuishoort in de oorspronkelijke dataset. Het generatieve systeem ‘liegt’ dus tegen de discriminator door nieuwe input te maken die niet in de dataset hoort, maar die wel aan de criteria voldoet. De discriminator probeert dat bedrog te ontdekken. 

 

Afbeeldingsresultaat voor gan generator

 

Trial and Error

Het generatieve systeem heeft geen idee waar het moet beginnen en begint met een wirwar van pixels: random noise. De discriminator heeft vervolgens de rol van beoordelaar van de output, als een soort scheidsrechter. Dat netwerk bepaalt of de output van het generatieve netwerk, realistisch genoeg is in vergelijking met de oorspronkelijke dataset van trainingsvoorbeelden. De discriminator bepaalt dus of de hamburger kan doorgaan voor ‘echte output’ of ‘nep output’. Het discriminator systeem wijst in het begin heel veel output af, omdat de generator immers begint met random noise. 

De kunstdetective en kunstvervalser

Deze beide neurale netwerken zijn in constante wisselwerking. Er vindt voortdurende terugkoppeling plaats. Feedback die als rivaliteit kan worden beschouwd. De discriminator dwingt de generator tot het leveren van een nóg hogere kwaliteit output. De generator doet daarom zijn uiterste best om het nóg beter te doen. De wisselwerking tussen de twee netwerken, de generator en de discriminator, is als de tweestrijd tussen een kunstdetective en kunstvervalser. De kunstvervalser probeert de detective voortdurend te slim af te zijn. Door de continue feedback creëert de generator uiteindelijk een foto die door de discriminator wordt beoordeeld als bestaand, terwijl deze gegenereerd is. De generator maakt dus nieuwe variaties op een bestaande dataset. Deze zijn soms zo goed dat ze voor origineel door kunnen gaan. Maar dat zijn ze niet!

Een menselijke ideeënmachine 

Door de wisselwerking van de discriminator en de generator, ontstaat er een ingenieus systeem dat realistische voorbeelden maakt. Voorbeelden waarbij het resultaat net zo goed is als originelen uit de database. Nieuwe voorbeelden van volkomen nieuwe variaties. Foto’s gecreëerd uit ‘de verbeeldingskracht’ van de generator. Het GAN-systeem is een ideeënmachine geworden.

Als je het begrip “generative adversarial network” ontleedt, dan wordt de uitleg nog een stuk beter: 

Generative: dit laat zien dat het kunstmatig intelligent systeem nieuwe (synthetische) data genereert (creëert) op basis van een bestaande set aan trainingsdata. Er wordt geprobeerd om de trainingsset na te bootsen. Er wordt geprobeerd om een synthetische variant van de dataset te creëren. De synthetische data is een representatie van de werkelijkheid. Maar dus niet de echte werkelijkheid. Het is synthetisch. Het is nep. 
Adversarial: Letterlijk vertaald betekent dit vijandig. Maar dan wel in samenwerking. Een overleg van hoor en wederhoor. Adversarial doelt op de competitie tussen de twee algoritmische modellen: de maker en de scheidsrechter. De kunstvervalser en de kunstdetective. 
Network: Dit zegt iets over de neurale netwerken die gebruikt worden. 

Machines met verbeeldingskracht

Bekende GAN-voorbeelden van variaties zijn de gezichten van mensen die nooit hebben bestaan. Fotomodellen die nooit hebben bestaan, slaapkamers die nooit hebben bestaan, auto’s die nooit hebben bestaan, enzovoort. Je zou ze kunnen beschouwen als nieuwe ideeën. Een generator creëert op basis van bestaande data gemakkelijk nieuwe afgeleiden, variaties en invalshoeken. Dat is ook wat wij als mensen doen wanneer wij onze verbeeldingskracht aanspreken. Wij bedenken nieuwe beelden op basis van beelden die we kennen. Met GAN-technologie krijgen machines ook een vonk van onze menselijke verbeeldingskracht.

Meer weten? lees dan het rapport “Machines met verbeeldingskracht” of boek een lezing van Jarno Duursma over GAN-technologie, machines met verbeeldingskracht, kunstmatige intelligentie en deepfakes. 

Een creatieve assistent

Mensen zullen op het gebied van creativiteit en innovatie steeds meer de interactie aangaan met kunstmatig intelligente machines. Op sommige vlakken wordt een creatieve proces enorm versneld met een variëteit aan nieuwe ideeën. Sommige ideeën lijken wellicht onnozel of zelfs hallucinogeen, maar anderen zullen verrassend vernieuwend en inspirerend zijn. GAN-technologie genereert ideeën en invalshoeken voor wetenschappers en haalt verschillende opties in tijd naar voren. Ze zijn als een creatieve assistent. Een GAN-systeem is dan een “hypothese creërende machine”.

Jarno Duursma op ‘High Tech loves Human Touch’ event

De kracht van GAN-technologie

GAN-systemen zijn een gereedschapskist die creatieve processen assisteren of zelfs kunnen overnemen. Vraag een GAN-systeem om een afbeelding te maken van ‘een vogel met rode veren, een zwarte kroon en een kleine snavel’, dan creëert het vele variaties. Het is alsof je aan honderd mensen vraagt om een tekening te maken van een vogel die voldoet aan die beschrijving. En hoewel er gelijkenissen zullen zijn, zijn er ook veel verschillen in de interpretaties. Dat is juist de kracht van GAN-technologie.

De ontwikkeling bevindt zich weliswaar in een pril stadium, nu al heeft het systeem een aantal grote voordelen ten opzichte van mensen. De computer werkt snel en vierentwintig uur per dag, zeven dagen per week onvermoeibaar door. Dat is op geen enkele wijze te vergelijken met hoe wij als mensen werken. Wij zouden eerst letterlijk naar een foto moeten kijken om deze te kunnen beoordelen. Bij een GAN-systeem gaat dat natuurlijk op computersnelheid.

AI maakt kleding passen overbodig: met deze AI software kun je kleding passen zonder het aan te doen.
Het GarmentGAN software systeem stelt gebruikers in de toekomst in staat om artikelen digitaal / virtueel te passen voordat men tot aankoop over gaat. GarmentGAN vereist als input slechts twee afbeeldingen, namelijk een foto van het kledingstuk in kwestie en een afbeelding van de klant.
De gegenereerde output is een (synthetisch) beeld waarin de klant de beoogde kledingstukken draagt.

Grenzen van een GAN-systeem

Een GAN-systeem kan niet volledig out-of-the-box creëren. Wanneer een systeem is getraind op het creëren van foto’s van auto’s, zal het nooit een koelkast maken. Wanneer het GAN-systeem getraind is met foto’s van bestaande mensen, maar waarvan hun oren bedekt zijn, kan het systeem niet uit zichzelf de oren erbij ‘bedenken’. De machinale verbeeldingskracht is op dit moment dus nog niet zo uitgebreid als de menselijke.

[KADER]

Reuters maakt AI-deepfake nieuwslezer
Persbureau Reuters en een AI-startup met de naam Synthesia hebben deze week een deepfake nieuwslezer laten zien. Deze nieuwslezer kan geautomatiseerde nieuwsberichten in realtime genereren. Het systeem is ontworpen als een proof-of-concept, het systeem neemt real-time score-updates van voetbalwedstrijden en genereert daarmee nieuwsberichten, compleet met foto’s en een script. Synthesia en Reuters gebruiken vervolgens Deepfake technologie en vooraf opgenomen beelden van een echte nieuwslezer om het script om te zetten in een “live” video van de lezer met actuele score-updates.
Erg handig, want op deze wijze kun je bijvoorbeeld tien of twintig verschillende “live” video’s streamen die tegelijkertijd dezelfde “persoon” laten zien die real-time scoringsupdates voor verschillende sportevenementen vertelt.
Voordeel van deze technologie: schaalbaarheid. Het gaat op veel meer gebieden toegepast worden, denk aan een luchthaven. Wat natuurlijk een risico is is dat – “De AI-verslaggever zei het” de toekomstige versie van “Ik las het op Facebook” wordt…

Toekomstige toepassingen van GAN-systemen

Door de kwalitatieve groei van generatieve AI-software en GAN-technologie in het bijzonder vervaagt de grens tussen reële en door machine gegenereerde content. Veel zaken in onze fysieke wereld zijn digitale weergaves. Generatieve AI-systemen kunnen daar in de toekomst nieuwe variaties en nieuwe invalshoeken op bedenken. Hierdoor ontstaan nieuwe mogelijkheden. Mogelijkheden die onze verbeeldingskracht stimuleren. Die hebben niet alleen betrekking op foto, video en audio, maar misschien ook op nieuwe medicijnen, nieuwe materialen, nieuwe smaakvariaties voor frisdranken of voorspellingen van het verloop van een ziekte.

GAN-systemen zijn vooral goed in het bedenken van nieuwe invalshoeken wanneer het gaat om visuele data. Andere generatieve AI-software is weer beter in het creëren van teksten of audio. Wil je meer weten over de ontwikkelingen en toepassingen van andere generatieve AI-systemen? Bijvoorbeeld systemen die teksten genereren of audio zoals stemgeluid en muziek? Lees dan beslist ook mijn gratis rapport Machines met verbeeldingskracht. 

Ik ben ook te boeken als spreker over dit onderwerp.

Bekijk mijn aanbod van lezingen Of neem direct contact op

 

Mijn klanten