Creative AI uitgelegd - Super Vision #37

Hi lezer 👋,

Zo, de AI-dust is wel weer zo'n beetje gesettled. Werkelijk overal kon je lezen over (en vooral kijken naar) zogeheten text-to-image AI-toepassingen, met namen als DALL-E, Imagen, MidJourney en Craiyon. 

RTL Nieuws kwam met de Trump als nirvana baby, journalist Elger van der Wel verwees naar Casey Newton's ervaringen met DALL-E in zijn nieuwsbrief, designer Jeroen Disch schreef erover in Halfvet en ook creative coder Hay Kranen liet het onderwerp niet onbetuigd in zijn Circulaire.

Deze week

Hoe de technologie achter text-to-image precies werkt leg ik deze week uit. Je leert waarom dit nieuwe ambacht (of kunst) 'prompt engineering' heet en leest wat zowel negatieve als positieve implicaties van deze technologie zijn. Een echte explainer geworden dus, met aan het eind tools om direct uit te proberen.

Ik eindig met een aantal events om heen te gaan of te checken online.

Veel leesplezier!

Laurens

# Wedstrijd

De wedstrijd die ik vorige week aankondigde -waarbij je m'n boek kunt winnen- is gewonnen door eerdergenoemde Jeroen Disch van nieuwsbrief Halfvet. Misschien wist 'ie niet eens dat 'ie meedeed, maar, Jeroen, door het noemen van mijn nieuwsbrief (en je mooie recensie van The Art of AI) ben je wel winnaar van een extra exemplaar. Challenge: beste Jeroen, verloot je 'm onder je lezers?!

# About last week: muziekupdate

Terwijl ik het vorige week over muziek had, vernam ik vlak erna dat het AI Songfestival 2022 er aan komt. Vriend van de brief Vincent Koops zit weer in de jury en er doet een Nederlands team van de Hogeschool Utrecht mee. Het Vlaamse team AI Beatroots doet ook weer mee. Je kunt stemmen voor de winnaar!

Deze week: Wat zijn Imagen, DALL-E en MidJourney?

OpenAI's DALL-E

"Imagine using the Google search bar like it was Photoshop — that’s DALL-E."

Zo omschrijft Casey Newton in zijn Platformer-nieuwsbrief deze AI-toepassing. (De naam DALL-E is een zogeheten portmanteau van de surrealist Salvador Dalí en Pixar’s WALL-E.)

Google's Imagen

M'n oude Google-collega Lee Boonstra, die me ooit op weg hielp met m'n eerste conversational prototype, postte de afgelopen week op Linkedin over Imagen:

Normally, my content is centered around Conversational AI and large language models, but today it's the Google Research: Imagen that's most top of mind...

MidJourney

Design Director Jeff Han gaat helemaal los met MidJourney, een private beta toepassing dat werkt op dezelfde manier als DALL-E en Imagen.

Design Director Jeff Han experimenteert met MidJourney,

Maar, wat is het nu precies?

De technologie achter al deze kunstmatige beeldengeneratoren wordt text-to-image genoemd. Om tot de huidige state-of-the-art te komen, zijn een aantal doorbraken belangrijk geweest, zo vertelt Vox in een geweldige explainer video (aanrader!).

Deep learning en variabelen - Still uit de explainer-video van Vox op Youtube

Een van die doorbraken is automated image captioning (2015) geweest. Machinelearningmodellen waren vanaf dat moment vrij goed in het niet alleen detecteren van objecten en figuren in afbeeldingen, ze konden er nu ook beschrijving bij geven. Denk 'mensen die met een bal spelen op het strand'. AI-onderzoekers dachten: wat nu, als je dat omdraait? Text-to-image als idee was geboren.

Hoe werkt text-to-image (TTI)?

Om de technologie te laten werken, voeren makers van TTI-toepassingen een duur en rekenkrachtheavy proces uit. Om met de woorden van The Economist te spreken: deze zogeheten foundation models bouw je niet op je zolderkamer.

Voordat de training begint heeft het team miljoenen beelden van het web moeten scrapen, met bijbehorende beschrijvingen en de alt text, en die ergens opgeslagen. Met de beelden en teksten op zak, kan het ontwikkelen van een TTI-toepassing beginnen. Daarvoor zijn nog een aantal stappen nodig. Dit is hoe Vox ze uiteenzet:

  1. Training

  2. Deep learning

  3. Latent space

  4. Diffusion

  5. Output

1. Trainen

Bij het trainen kijkt de computer naar de kleurwaardes van de pixels en leert daarvan welke afbeeldingen bij bepaalde kleuren en kleurpatronen horen, en vervolgens welke teksten daar aan gekoppeld zijn. Het model toetst zichzelf in de volgende stap door niet naar de afbeelding te kijken, maar puur naar de pixelwaarden. Daarmee doet het een voorspelling van wat er in het beeld te zien is.

Eerst de tekstvoorspelling en pas dan wordt de actual tekst gegeven. Is de score beter dan bij de vorige voorspelling, dan leert het model daar weer van.

2. Deep learning

Om te leren, het model te trainen, wordt deep learning gebruikt. Dit is een vorm van machine learning die werkt met neurale netwerken. Je kunt dit zien als meerdere parallelle lagen die worden gebruikt om informatie door te geven tussen de verschillende lagen. Die informatie bevat herkende patronen, trainingsgegevens, scores en voorspellingen.

3. Latent space - recept voor afbeeldingen

Met alle informatie, patronen en koppelingen die het deep learningproces heeft opgeleverd, moet het TTI-model nu de beelden 'mappen' in een denkbeeldige ruimte ('space'). 

En nu wordt het pas echt ingewikkeld. Denk even aan een specifiek punt of cluster in een meerdimensionale ruimte die hoort bij 'aardbeien'. Er is een ander punt voor '1960', weer een andere voor 'Obey' en een vierde voor 'kalligrafie'. Er is er een voor 'sneeuw', een voor 'schoen' en waarschijnlijk bevindt het punt voor 'sneeuwschoen' zich ergens tussen die twee.

Een TTI-model gebruikt honderden dimensies en kan met miljarden parameters overweg. Als je hier een ding van moet onthouden: dit kan geen mens goed bevatten of onthouden, maar een computer dus wel. Zoals Vox het uitlegt: elk punt in deze ruimte kan een recept zijn voor een mogelijke afbeelding. Met de door jou ingevoerde tekstprompt, navigeer je het systeem naar de juiste plek in die space, de ruimte.

4. Diffusion

Voordat het uiteindelijke beeld gegenereerd wordt, vindt er nog 'diffusion' plaats. Hierbij wordt een beeld van lage resolutie met veel noise opgebouwd, laagje voor laagje, totdat het lijkt op het beeld dat we ingaven in de tekst. De laagjes worden opgebouwd aan de hand van die punten uit de latent space, met bijbehorende patronen van pixelwaarden - het recept, remember.

5. Output

Nu is het TTI-model klaar om een 'selfie van een tiener in de stijl van Picasso' op meerdere manieren op te bouwen, net zo lang tot een ander deel van het systeem een goede beoordelingsscore geeft (die weer is gebaseerd op de inputbeelden waarmee het model werd getraind).

Het is dankzij diffusion dat je vrijwel nooit twee keer een identiek, zelfde beeld krijgt. Er zit zeker ook een bepaalde randomness in het proces. Ook de beelden waarmee het systeem is getraind, hoe de latent space is gevormd en de semantische 'map' is gemaakt (met hoeveel parameters het model kon werken), zijn van invloed op hoe het model beelden genereert.

"These AI systems has seen much more than us,"

zegt een AI'er in de Vox-video. Maar wees gerust: deze AI-systemen zijn niet creatiever of slimmer dan wij. Ze hebben alleen een groter referentiekader om uit te putten dan een mens ooit zou kunnen.

The Economist schrijft dat men op een gegeven dacht dat meer data geen beter functionerende modellen zou opleveren. Dat blijkt echter wel het geval. Dat wil niet zeggen dat we dat ook maar ruksichtlos moeten doen. Ten eerste omdat dat voor de resources op onze planeet onverstandig is, maar ook omdat dat iets anders gevaarlijks oplevert. Maar daarover verderop meer...

Wat zijn de voor- en nadelen?

Volgens Casey Newton van Platformer hebben er nu zo'n 1000 mensen toegang tot DALL-E2, waar er iedere week 1000 bij komen. Je moet volgens hem een content policy document tekenen en mag bijvoorbeeld het woord 'shooting' niet gebruiken en geen beelden genereren om mensen mee te misleiden (aka deepfakes).

#bias

Afbeeldingen van personen en menselijke gezichten kun je met DALL-E en Imagen nog niet maken, vanwege restricties die zijn ingesteld door de eigenaren. Dit komt vooral door bias. Google loopt met Imagen op dit gebied tegen dezelfde problemen aan als DALL-E. Beide modellen zijn gebaseerd op automatisch gescrapete foto’s en bijschriften van het internet. Daardoor sluipen seksisme, racisme, stereotyperingen en andere vooroordelen naar binnen. Typ je verpleegkundige in dan krijg je een vrouw en bij CEO een man. Wil je een beeld van een gevangene ... dan raadt je het al.

#ruimte en plaatsing van objecten

Daarnaast zijn deze synthetische afbeelding soms perspectivisch off en klopt de positie van objecten ten opzichte van elkaar niet altijd.

Voordelen zijn dat het je helpt met creatief brainstormen, kan het als visuele check fungeren: sluit ik met mijn werk aan bij bestaande percepties en beelden rondom dit onderwerp?

Wie doen er al iets mee?

De Nederlandse publieke omroep KRO-NCRV heeft een visuele podcast ontwikkeld voor dove en slechthorende kinderen, waarbij ze met TTI beelden aan de podcast toe hebben gevoegd. Zo zijn er 'drie afleveringen van de populaire kinderpodcast Toen was ik 12 toegankelijk gemaakt met behulp van kunstmatige intelligentie (AI). De AI vertaalt de bestaande audio-content van Toen was ik 12 naar creatieve beelden. Met de vodcast wil KRO-NCRV meer media toegankelijk maken voor mensen met een beperking en meer kennis opdoen van de mogelijkheden van AI-systemen om automatisch content te genereren.'

Casey Newton beschrijft een artiest die DALL-E gebruikt om augmented reality filters voor social apps te genereren. Ook zou een chef in Miami text-to-image gebruiken voor inspiratie om zijn borden op te maken.

Text-to-music

Het hoeft niet per se meer om afbeeldingen te gaan. Zo trainde Reeps One, een Britse componist, een model met zijn eigen human beatbox-achtige vocalen, zodat hij nu een drumcomputer heeft die is gebaseerd op zijn eigen stem. Om zijn signature muziek te maken heeft 'ie z'n stem dus niet meer nodig.

Text-to-text

Een op GPT3-gebaseerde schrijftool genaamd Co-Author leert deels op dezelfde manier teksten genereren als TTI, alleen zou je de toepassing hier text-to-text kunnen noemen.

Waar kunnen we het verwachten?

Toen ik afgelopen vrijdagmiddag aan iemand van de fotoredactie van NRC liet zien wat je allemaal met DALL-E kunt a.h.v OpenAI's DALL-E2's showaccount op Instagram, voelde ze zich geenszins bedreigd. Sterker nog, ze zag allerlei 'illustrationele' (mijn woord) toepassingen, voor bij bijvoorbeeld essays, what-if verhalen en voor beelden bij meer abstracte (vaak digitale) onderwerpen zoals crypto, cybercrime maar ook voor #metoo.

Youtuber/designer Linus Bowman analyseert dat TTI-beelden nu allemaal nog een beetje vervreemdende onderwerpen hebben en absurd zijn. De nieuwigheid zal volgens hem snel weg ebben. Zijn observatie: de meest populaire prompts eindigen met 'in de stijl van kunstenaar x' (of 'designer y').

Een ander vermoeden is dat mensen hun 'prompts' voor zich houden, en dat zij het 'engineeren' ervan tot een ware kunst (of ambacht) proberen te verheffen.

Casey Newton schrijft:

It’s often the case that, when a new technology emerges, we focus on its happier and more whimsical uses, only to ignore how it might be misused in the future. 

Waar moeten we bang voor zijn?

"Design is intelligence made visible," zei iemand ooit. Nu we kunstmatige intelligentie kunnen inzetten om visuals te maken, verliezen kunstenaars, illustratoren en (grafisch) ontwerpers hun alleenrecht op ontwerpen? Moeten ze vrezen voor hun baan? Nee. Althans, niet degenen met een eigen signatuur, visie en mening over wat goed beeld is. Er is meer nodig voor creativiteit dan fotorealistische beelden genereren.

Wie krijgen er last mee?

Volgens Bowman moeten we onthouden dat disruptieve technologie (die dit ook wellicht is) altijd aan de onderkant van de markt binnenkomt. Designers die templates maken, logo's ontwerpen of designs omzetten naar verschillende systemen - zij moeten oppassen of nieuw werk zoeken. Text-to-image bedreigt waarschijnlijk ook de stockphoto, maar daar zullen de meeste ontwerpers niet rouwig om zijn. Met deze AI-toepassing kun je immers iedere keer weer unieke beelden genereren en gebruiken.

Vooral werk dat visueel inwisselbaar is, zal hiermee concurrentie krijgen. Visual designers hoeven dus niet direct bang te zijn. Waar onderzoekers echter voor waarschuwen is het feit dat deze grote, of foundation modellen alleen nog maar door grote bedrijven kunnen worden gebouwd, omdat ze duur zijn, veel data nodig hebben en veel rekenkracht. Zelfs de grootste universiteiten ter wereld zijn bijna niet meer in staat om een aantal Chinese techbedrijven, Google, OpenAI of Meta bij te benen op dit vlak.

En copyright dan?

Alle beelden worden ter plekke gegenereerd en van plagiaat is dan geen sprake. Casey Newton schrijft over DALL-E:

It’s not entirely clear whether using AI to generate images of protected works is considered fair use or not, I’m told.

Zelf proberen?

Craiyon is the newest kid on the block (heette vorige week nog DALL E mini!)

Eerder behandelde ik GauGan2, Snowpixel en NightCafe om zelf mee te experimenteren.

Lezen & zien

The promise and perils of a breakthrough in machine intelligence | Lees dit artikel over foundation AI models.

Instagram account dat zeker het checken waard is.

Agenda

Wil je online meer leren over AI? Doe dan deze gratis AI-cursus voor de Creatieve Industrie. Het boek The Art of AI en deze nieuwsbrief worden er ook warm aanbevolen. Lezers van het boek en vrienden van deze brief herkennen een aantal pioniers ;-)

Op welke manier beïnvloeden algoritmes, metrics, deepfakes en andere vormen van artificiële intelligentie het beroep van journalisten, marketeers en 'content creators' voor mediabedrijven? Deze tweedaagse 'summer school' vindt plaats op 25 en 26 augustus 2022. Schrijf in voor 30 juni en geniet van het vroegevogel-tarief: 150 € in plaats van 200 €. Gebruik hiervoor deze kortingscode: MPMPBAKY

Drie AI'ers - designer Casper Schippers, TikTok-research scientist Janne Spijkervet en Nadia Piet (Head of Creative Tech Dept) praten over hun werkpraktijk, best practices en uitdagingen. Hoe gebruiken zij AI for good en wat zijn hun dilemma’s?

Met publieksinstallatie De Vrije Hand, Studio VRij.

Artificiële intelligentie biedt marketeers in de cultuursector kansen op het gebied van efficiënter werken, automatisering en personalisatie.

✅ Dat was 'm dan!