Super Vision #7 - Video en AI

Hi, 🖐🏿

Deze week: video en AI. En, wellicht meteen een teleurstelling: geen deep fakes in deze editie😬. (Zie daarvoor Further reading.)

Ik wil het hebben over twee verschillende, praktische nieuwe mogelijkheden van AI-powered video en animatie:

  1. video-editing on steroids

  2. synthetische videogeneratie.

Die laatste is een hele mond vol, I know, maar het wordt zo duidelijk. Lees, kijk en klik gewoon rustig verder.

Maar... voordat we echt losgaan, heb ik een verzoek aan je: wil je me kort laten weten wat je van deze nieuwsbrieven vindt? 🤗

Okay, let's go: we kijken naar een (low-res GIFje van een) dansvideo die is gemaakt met behulp van een AI-applicatie die gewoon draait in je browser:

Designer @laureano_solis gebruikte RunwayML Sequel voor deze choreografie visuals.

Over de hierboven gebruikte tool en de nieuwe mogelijkheden straks meer.

Deze week: videogeneratie en -editing

Bij de Accelerator van het Stimuleringsfonds voor de Journalistiek begeleid ik een aantal teams, waaronder de startup XS2AUDIO. Oprichters Sebastian Plasschaert en Richard Otto ontwikkelden een platform waarbij uitgevers en andere content-genererende organisaties hun bestaande materiaal automatisch en near real-time omzetten in audio en video. Hiermee bedienen uitgevers op een goedkope en snelle manier hun lezers (lees: adverteerdersdoelgroepen). XS2Audio combineert bestaande spraak-AI en software van Synthesia met audio- en video-design. Bekijk hier zo'n automatisch gegenereerde video:

Een voorbeeld van een met XS2Audio-gegenereerde video

1. Wat is er nieuw aan AI & Video editing

De mogelijkheden van Sequel; RunwayML

Je bent ongetwijfeld bekend met Avid, Final Cut Pro en/of Adobe Premiere en After Effects. Ze bieden animatoren, film- en videomakers al jaren mogelijkheden die er eerder, in het analoge tijdperk, niet waren of veel tijd en geld kostten. Een nieuwe generatie AI-powered tools biedt daar nu nieuwe mogelijkheden bovenop.

Het nieuwe oude: sneller, eenvoudiger en goedkoper

Bestaande visual effects zoals greenscreening, rotoscoping en depth-mapping zijn sinds kort met AI zonder veel dure hard- en software uit te voeren. In simpele interfaces gevat, draaien die applicaties gewoon in je browser en wordt het renderen (rekenwerk) gedaan in de cloud.

Het nieuwe nieuw: assessing realism from the artist to the computer

L. Victor, A. Meyer / Pose design in latent spaces

Wat ik nu echt spannend vindt zijn de nieuwe, ongekende mogelijkheden, zoals de Latent Space Animation (LSA). Ja, ik moest zelf ook even moeite doen om die term te begrijpen. Ik ga het uitleggen. Je kent morphing waarschijnlijk wel, maar dit is next level 🤯.

Stel je even voor: je toont aan een AI twee verschillende foto's van dezelfde persoon in dezelfde ruimte. Op de ene staat de persoon en op de andere foto zie je deze liggen. Een traditionele morph (of 'tween') tussen deze twee beelden zou een gekke animatie opleveren die de pixels vermorzeld. Met LSA 'voorspelt' de AI welke tussenhoudingen - de latente spaces- een persoon zal aannemen die van staan naar liggen beweegt.

Twee onderzoekers van de Universiteit van Lyon beschrijven in een recente paper welk probleem voor animatoren ze met deze vorm van AI denken op te lossen:

In order to create appealing animation, animators define the key poses of a character by manipulating its underlying skeletons’ joints. To look plausible, a human pose must respect many ill-defined constraints and the resulting realism greatly depends on the author’s eye for details. Computer animation software proposes tools to help in this matter, relying on various algorithms to automatically enforce some of these constraints.

The increasing availability of motion capture data has raised interest in data-driven approaches to pose design, with the potential of shifting more of the task of assessing realism from the artist to the computer. In this paper, we propose such a method, relying on neural networks to learn the constraints from the data and to create an alternative representation of the pose space.

Noot: Ik heb me laten vertellen dat gedetailleerde art direction bij latent space animations nog lastig is, maar zie dat als een kwestie van tijd.

2. Waar kan ik video-AI straks voor inzetten?

Er is een recente anekdote over een Hollywood-acteur die z'n beeldrecht verkocht waarmee in post-production alleen nog zijn gezicht en lichaam over de opnames van een body double geplakt hoefden te worden. Fysiek aanwezig zijn op de set was niet nodig.

Gebruik je latent space of latent pose animaties, dan hoef je alleen nog maar een paar foto's van een ballerina of vechter te hebben. Het algoritme vult vervolgens zelf alle bewegingen in om een vloeiende pirouette of high kick te genereren - vanuit welke hoek je het shot ook wil hebben.

3. Wie gebruiken er al AI voor video?

Met Reals van Hour One worden echte mensen synthetische avatars; hourone.ai

Nieuwe mogelijkheden van AI-editing en synthetische generatie worden gebruikt door editors, visual fx artists, in post-productie en door motion designers. Akshay Tiwari creëerde er title sequences mee voor een Black Mirror-aflevering.

Become a character: Figuranten in de hoofdrol

Naast het Nederlandse XS2Audio is er ook een start-up uit Tel Aviv/NYC op de markt voor synthetische video-generatie: Hour One. Met een van hun diensten -Reals- bied je een digitale versie van jouw gezicht aan op hun marktplaats. Je wordt uitbetaald wanneer 'jij' wordt gekozen om synthetisch tot presentator te verworden in andermans productvideo, bijvoorbeeld als online autoverkoper:

AI-powered characters based on real people can star in thousands of videos and say anything, in any language.

Je geeft je instagram-account op en Hour One bekijkt of je in aanmerking komt om een artificiële host te worden waaruit vragers straks kunnen selecteren. #nieuwwerkdoorAI

4. Zelf aan de slag?

👉🏽Sequel van RunwayML - Met deze tool kun je greenscreenen, rotoscopen en depth-mappen. De effecten in de dansvideo uit het begin zijn hiermee gemaakt. Snel, eenvoudig en allemaal in de cloud, zonder iets te hoeven installeren. (Deze web-based video editor is trouwens onderdeel van de tool die ik in editie #1 ook al behandelde om StyleGANs mee te maken.)

Een van de tools die XS2Audio gebruikt, kun je ook zelf uitproberen

Hour One provides synthetic characters based on real-life people.

Further reading: die deep fakes

Oke, je kunt er eigenlijk niet omheen. Dus ik ook niet. Hier twee Nederlandstalige artikelen die de bekende voorbeelden, ideeën, gevaren en doemscenario's van dit type fake video's op een rijtje zetten. En als je dan nog durft en kan, mag je zelf aan de slag ;-)

Video-generatie met AI. Een artikel van Villamedia

Zet 'm op, en stuur me je resultaten.