Super Vision #4: 💻👀

Hi, vandaag leg ik uit wat Computer Vision is: wat het kan en waar je het al ziet. Ik schets use cases voor mediamakers, tip online tools om mee te starten en heb een heuse AI-eventkalender voor je.

Welkom aan alle nieuwe abonnees 👋 (En dank voor de mentions, Nick en Elger.) Je hebt zojuist de vierde (maar jouw eerste, 😉) Super Vision geopend!

📗De geschatte leestijd van deze editie is ±8 minuten. Veel plezier! Groet, Laurens Vreekamp, Future Journalism Today Academy.

Volgende week ga ik het trouwens hebben over labeling van data. Heb je daar al mee gewerkt of ken je een interessant voorbeeld of tool? Laat het me weten: [email protected]

Deze week: 💻👀

Computer Vision in actie; The Flemish Scrollers, Dries Depoorter

“Beste politicus, blijf gefocust!"

Zo luidt de tekst van een automatisch gegenereerde tweet (of instagram post) die Vlaamse politici tegenwoordig kunnen verwachten van een AI. Wanneer deze detecteert dat een volksvertegenwoordiger met de smartphone bezig is tijdens een debat, wordt bovenstaand bericht automatisch aan de geïdentificeerde politicus verstuurd, vergezeld van een video als bewijs.

De toepassing is gebouwd door de Belgische kunstenaar Dries Depoorter. Hij maakt hiervoor gebruik van object detection (het herkennen van de telefoon) en face recognition (herkennen van de politicus). Dit zijn twee onderdelen van AI-technologie die Computer Vision (CV) wordt genoemd. Om zijn toepassing te bouwen, zal Depoorter waarschijnlijk honderden foto’s per politicus verzameld hebben, en nog eens duizenden van handen die telefoons vasthouden.

Het door de kunstenaar getrainde Computer Vision-model analyseert de Youtube livestreams van vergaderingen en debatten in het Vlaamse parlement om zo de berichten naar de juiste politici te sturen.

1. Wat is Computer Vision?

Heel kort: computertechnologie die beeld analyseert. Of uitgebreider:

Computer vision, vaak afgekort als CV, is een subdomein van AI en wordt gedefinieerd als een vakgebied dat technieken probeert te ontwikkelen om computers te helpen de inhoud van digitale afbeeldingen zoals foto's en video's te 'zien' en te begrijpen. Vanuit het perspectief van engineering probeert CV taken die het menselijke visuele systeem kan uitvoeren te begrijpen en te automatiseren.

Computer Vision is -naast Natural Language Processing- een belangrijke subcategorie van machine learning. Computer Vision kun je vervolgens weer toepassen op verschillende deelgebieden zoals gezichtsherkenning, object detection en pose recognition.

Een CV-model train je met behulp van eigen beeldmateriaal of op basis van bestaande datasets. Wanneer het model goed genoeg is, herkent deze binnen milliseconden (gezichten van) personen, gebouwen, objecten, fruit of gerechten in foto's of video's.

Er zijn bedrijven die zeggen met Computer Vision ook emoties te kunnen herkennen. Dat is naast omstreden ook nogal onbetrouwbaar, zo ervaar je ook al gauw zelf met deze twee AI-powered interactives:

2. Waarom moet je dit weten?

Object-detectie met het YOLO-model: You Only Look Once

Dat zelfrijdende auto’s niet zonder Computer Vision kunnen, zul je wel begrijpen. Ze moeten immers verkeersborden, drempels, mede-weggebruikers, dieren en overwaaiende dozen kunnen herkennen om te functioneren. En dat filters in Snapchat en Instagram gezichten moeten herkennen, daar ben je ongetwijfeld mee bekend. Maar dat het bij het tanken altijd even duurt voordat de benzine uit de pomp komt, omdat eerst je kenteken wordt gecheckt door een CV, dat wist je misschien niet. Ik in ieder geval pas sinds ik dit boek van Jim Stolze las.

Visuele archieven metadateren

Journalistieke organisaties gebruiken intern al diverse beeldherkenningstechnieken. Zoals -het zal ook 'ns niet- de New York Times; daar bouwden ze zelf een model om hun fotoarchief beter te metadateren. Dichter bij huis heeft in Nederland o.a. het ANP een project lopen om miljoenen beelden in hun fotobanken te beschrijven. Er wordt zelfs geprobeerd een 'aesthetic ranking' toe te kennen aan een foto. Ik ben wel benieuwd hoe ver ze hier ondertussen mee zijn...

Onderzoeksjournalistiek

Het Oekraïense onderzoekscollectief Texty.org ontdekte illegale mijnbouw door satellietfoto’s te analyseren en te classificeren met Computer Vision. De Nederlandse journalist Jerry Vermanen (KRO-NCRV’s Pointer) trainde een eigen beeldherkenningsmodel om vuurwapens op foto’s te herkennen en schreef daarover: "Je voelt je zo slim zodra een bak met 1.500 foto’s nagenoeg foutloos wordt gelabeld." En VRT-journalist Tom van de Weghe deed mee aan een onderzoek van Stanford University om bias in tv-uitzendingen te ontdekken.

3. Wanneer ga je Computer Vision gebruiken?

Met Computer Vision kun je een machine leren om vragen te beantwoorden als:

  • Wat gebeurt er op deze (camera)beelden?

  • Welke personen staan er op een foto?

  • Welke lichaamshouding neemt een persoon in situatie x aan?

  • Welke objecten zien we in een afbeelding?

  • Bij welke architectonische stijl hoort dit gebouw?

Als maker kun je CV op twee manieren inzetten: tijdens je onderzoeksproces of als interactieve toepassing voor je eindgebruiker.

Als je als journalist werkt, en een van je kerntaken is ‘holding power to account’, dan heb je met Computer Vision een krachtig middel in handen. Zo kun je de aanwezigheid van bepaalde personen of groeperingen bij vergaderingen of demonstraties inventariseren en turven. Dit kun je met CV doen door bijvoorbeeld specifiek te kijken naar logo's, outfits, meegebrachte vlaggen, insignes of spandoeken.

Daarnaast kun je spelden vinden in verschillende hooibergen, zolang je een aantal goede voorbeelden hebt van de speld die je zoekt. Is je vraag: 'Waar en hoe komt ontwikkelingssteun terecht?' dan zoek je bijvoorbeeld middels CV snel door duizenden foto's en video's op social media waar gesubsidieerd politie- of geexporteerdoorlogsmaterieel in het buitenland in voor komt.

User research & customer service

Maar ook als je user research of marketingonderzoek doet naar gebruik van bepaalde of hoe mensen accessoires tonen op social media. Of: wat Vlamingen doorgaans aan tuinmeubilair hebben; met Computer Vision kun je beelden classificeren aan de hand van door jou zelf opgestelde visuele criteria.

CV helpt je ook om de helpdeskervaring of customer service journey van je klant te verbeteren. Zo kan ik me voorstellen dat zorgverzekeraars beelden van schade sneller kunnen categoriseren en analyseren wanneer een polishouder foto's bijvoegt.

De keerzijde

Problemen, ongewenste uitkomsten en andere misstanden met toegepaste Computer Vision komen vrijwel wekelijks in het nieuws - met name rond gezichtsherkenning. Deze twee licht ik er graag uit:

Een zogeheten 'adversarial audit' van de Duitse omroep BR: over het inzetten van AI-powered personality assessments bij sollicitaties.

A start-up scraped the internet to build a facial-recognition tool; it tested a legal and ethical limit.

4. Waar zie je CV al / ben je in beeld?

Brickit.app herkent je LEGO-stukjes en doet bouwsuggesties

🧱Indrukwekkend is de Brickit.app (zie afbeelding), waarmee je door het scannen van je losse LEGO-blokjes voorbeelden krijgt van mogelijke bouwsels. Toepasbaar op jouw werk wellicht?

🤦🏻‍♂️Als gimmick wist interactief bureau Red Pepper het complete spelelement uit het zoekspel Where is Waldo te elimineren, door een AI te trainen op het herkennen van Waldo. 

🚊🎨De Nederlandse Spoorwegen hebben een CV-toepassing voor medewerkers gebouwd waarmee ze in hun database bekende 'artists' visueel matchen met nieuwe graffiti op treinen.

Deze interactieve videotraining maak het misschien dan toch mogelijk een keer binnen te komen in de beruchte Berlijnse nachtclub. NLP en CV.

5. Zelf leren kijken met AI?

Leer een AI wat een rijpe banaan is; Teachable Machine, Google

👉 Teachable Machine -Veruit het makkelijkst (en vermakelijkst) experimenteer je met Computer Vision met Google's Teachable Machine. Via je webcam toon je voorwerpen (of poses) die herkend moeten worden, en houdt record ingedrukt. Vervolgens start je de beeldclassificatietraining. Er wordt een uniek CV-model voor jouw objecten ('classes') opgebouwd door de specifieke kenmerken ervan te leren kennen. Training klaar? Test dan de kwaliteit van je model voor je eigen webcam of deel 'm met anderen. Stuur me de link naar je model: [email protected]

👉 Lobe.ai -Intuïtieve desktopapp van Microsoft. waarmee je middels drag&drop heel eenvoudig een beeldclassificatiemodel maakt. Je kunt zowel beelden vanaf je computer gebruiken als je webcam. Er is ook een exporteerfunctie voor formaten waar developers mee werken. Zo kun je jouw CV-model in een iOS-, Android-app of site implementeren.

👉 AutoML Vision - Google Cloud Deze omgeving van Google werkt -zoals de naam al doet vermoeden- in de cloud. Je krijgt gratis credits waarmee je een aantal Computer Vision-modellen kunt trainen met eigen beeldmateriaal. Te gebruiken voor beeldclassificatie en object-detectie.

Dit was 'm weer voor deze week. Veel experimenteerplezier. En stuur me vooral je Teachable Machine of Lobe.ai testjes door. Tot volgende week. Dan behandel ik labeling van data.

*NIEUW* 🎤 De AI agenda

Vandaag t/m 28 september, fysiek

Conceptualising new artistic interventions in AI: Mushon Zer-Aviv is hosting a workshop as part of Waag's Expedition: future.

Donderdag 30 september, online

Kenniscentrum voor juridische, ethische en maatschappelijke aspecten van artificiële intelligentie en datatoepassingen.

7 - 11 december, online

The JournalismAI Festival is a celebration of the most exciting developments at the intersection of journalism and artificial intelligence.

Further viewing, coding & reading

Alle grote tech-bedrijven hebben Computer Vision toepassingen waarover ze graag publiceren. De meesten kun je als maker ook benutten. Ik noem ze hieronder, maar start met een open source variant.

Als je een stap verder wilt met Computer Vision, en niet bang bent om te programmeren, dan is dit een mooie start om je eerste toepassing te bouwen.

Photos (on iOS, iPadOS, and macOS) is an integral way for people to browse, search, and relive life's moments with their friends and family…

Specifieke uitleg voor een beginner die met AutoML Vision in de Google Cloud omgeving wil gaan werken

The future of AI is in creating systems that can learn directly from whatever information they’re given — whether it’s text, images, or another type of...