• Super Vision
  • Posts
  • Hoe je AI kunt saboteren - Super Vision #16

Hoe je AI kunt saboteren - Super Vision #16

Hi lezer, πŸ‘‹

Heb je weleens gefantaseerd over het foppen van een AI? Een systeem tegen te werken of zelfs te saboteren? Zo ja, dan ben je deze week in goed gezelschap. We gaan namelijk in de aanval! Als wapens zetten we een labrador in en manipulatie make-up. Vecht je mee?

Adversarial AI (AAI)

In deze nieuwsbrief behandel ik tactieken en technieken die je kunt gebruiken om AI weerstand te bieden. Je krijgt voorbeelden van journalisten, wetenschappers en designers die aan Adversarial AI doen. Ze hebben manieren bedacht om de werking van machines te ontleden, ze om de tuin te leiden of zelfs kapot te maken. Meestal for good, maar alles in the AI of the beholder πŸ˜‰.

Noem ze TikTok-gen Luddites, synthetische controleurs van de macht, criminele coders or whatever - deze Tommy Coopers van de AI moesten wel eerst hun machine-goocheltechniek on point hebben voordat ze hun eigen trucs en die van anderen konden laten mislukken. Als jij deze nieuwsbrief uit hebt, ben jij ook een stap dichter bij de antimagie.

Enfin, veel synthetisch zelfverdedigingsplezier!

Laurens.

Wat is AAI?

'Typographic attack' - Adversarial AI in een enkel beeld (Bron: OpenAI)

Zo makkelijk als hierboven fop je de meeste AI-modellen niet (meer). Maar onderzoekers van de Japanse Kyushu Universiteit is het gelukt om door een enkele pixel in een afbeelding te veranderen, een Computer Vision machine learning model een actual afbeelding van een auto als 'hond' te classificeren. (Hoe ze dat deden kun je zelf ook nadoen, via de link onderaan de nieuwsbrief.)

Wat onze machines mogen

Machine learning helpt ons enerzijds om repetitieve taken op grote schaal en met hoge snelheid vrijwel foutloos uit te voeren. Heel fijn, want: een AI heeft geen maandagblues- of vrijdagmiddag-fuckitall-vibe, is altijd uitgeslapen, kent geen inwerktijd, heeft geen ruzie thuis, mist de stress bij een deadline en lijdt niet aan recency bias.

Wat mensen niet willen

En tegelijkertijd levert het inzetten van ML ook nieuwe risico's op, zoals vrijwel elke nieuwe technologie die met zich meebrengt.

Tot zover niks verrassends. Maar nieuwe zwakke plekken, met gevoeligheden voor een nieuw soort fouten, kunnen grote gevolgen hebben.

Zo zijn er problemen in de categorie 'te voorzien'. Denk aan de bias in de data door een ondoordachte selectie van trainings-voorbeelden. En er zijn de unintended consequences: denk aan een aanbevelingsalgoritme dat het volgende heeft geleerd:

Van alle video's die worden uitgekeken, wordt een bepaald type video (van die-en-die makers, met die trefwoorden en dat soort titels) vaker uitgekeken. (Wat blijkt? Het zijn ophef-video's.)

Nu ben ik als algoritme geoptimaliseerd op de meetwaarde #aantal-uitgekeken-video's.

Ergo: ik beveel meer video's aan die lijken op die ophefvideo's.

Malicieuze tegenstanders

Het wordt een tikkeltje spannender als ML niet per ongeluk verkeerd wordt gebruikt, maar opzettelijk, met malicious intent. Dan heet het Adversarial AI (AAI of: Adversarial Machine Learning). Het is een verzameling technieken waarmee men probeert om machine learning modellen -liefkozend gezegd- te foppen. Dit kan door extra data toe te voegen aan een model, door nieuwe data te manipuleren en die het model voor te houden OF zelfs door een heel model met data en al te stelen.

Nu zijn veel voorbeelden nog voornamelijk onschuldig (of alleen in een lab gedemonstreerd), maar straks wellicht niet meer ...

Hoe werkt AAI?

In een post op Medium ontleedt datawetenschapper Conor O'Sullivan drie verschillende vormen van AAI:

  1. Poisoning

  2. Evasion

  3. Model stealing attacks

1. Poison attacks

A poisoning attack focuses on the data used to train a model. [...] For example, an attacker could relabel fraud cases as not fraud. The attacker could do this for only specific fraud cases so when they attempt to commit fraud in the same way the system will not reject them.

Het is misschien geruststellend om te weten dat voor veel AI-toepassingen het model eenmalig, van tevoren is getraind (en na evaluatie en testen wellicht nog wat ge-finetuned). Je kunt het model dan van buitenaf niet meer 'voeden' of trainen.

Maar bij echt zelflerende systemen, zoals bij de machine learning variant die reinforcement learning heet, zijn de mogelijkheden voor poison attacks groter. Ze worden immers herhaaldelijk getraind met de nieuwe, onbekende voorbeelden die ze tegenkomen in het wild. Dit is hoe en waar ze 'leren': in de werkelijke praktijk van de live-omgeving waarbinnen ze draaien.

2. Evasion attacks

Bij een evasion attack manipuleer je als aanvaller het model (i.p.v. de data waarmee het model getraind is ). O'Sullivan noemt het voorbeeld van mensen die door hun geolocatie of postcode niet of minder snel in aanmerking komen voor een geldlening en daar iets op verzinnen:

For example, when applying for a loan, an attacker could mask their true country of origin using a VPN. They may come from a risky country so, if the attacker used their true country, the model would have rejected their application.

Een ander voorbeeld van een evasion attack is er een die relatief eenvoudig werkt door een aantal pixels aan te passen in een afbeelding. Zo is hieronder een afbeelding van een panda (afb. 1) gemanipuleerd met lichte ruis of noise (uit afb.2) tot iets wat wij als mens nauwelijks waarnemen; afbeelding 3.

"Attackers can create images that look perfectly normal to a human but results in completely incorrect predictions. "

Het voorbeeld hierboven lijkt onschuldig, maar stel je een dergelijke attack eens voor in verkeer waar zelfrijdende auto's zijn. Conor schrijft:

"Could a stop sign or traffic light be altered in a similar way? Such an attack could go unnoticed by a driver but cause the car to make incorrect and life-threatening decisions."

3. Model stealing

Een derde aanvalsoptie is het stelen van het hele model. O'Sullivan:

"In terms of the model structure, an attacker may want to learn about the model and use it for financial gain. [...]

For example, they could identify exactly what words a spam filtering model will flag. The attacker could then alter spam/phishing emails to ensure they are delivered to the inbox."

Hier is eventueel toekomstig financieel gewin waarschijnlijk de grootste incentive voor de AI-dief.

But... why, why AAI?!

"Oke, Laurens, wacht even," zul je nu misschien denken of roepen. "Worden er echt al AI-modellen gestolen? Is de wereld dan zo fucked-up? Maar: echt?!" Ja, lieve lezer, niets menselijks is het AI-domein vreemd.

En wees even eerlijk: verbaast dit je eigenlijk wel echt, anno 2022?

Om je verder uit de droom te helpen: 'model stealing' zal in de toekomst vaker voorkomen. Zo schrijven onderzoekers op het AAI-blog Clever Hans:

Training machine learning models from scratch is becoming increasingly expensive. This can be attributed to various factors that are involved in the training of a high-performing ML model β€” the high computation cost, the private dataset required to obtain high task accuracy, and intellectual contributions such as algorithmic or architectural novelty.

As ML models become valuable commodities, adversaries find (often financial) incentive to steal a victim’s model at a significantly lesser cost at their end.

Wie doen er iets tegen AAI?

Even ademen. Een luchtig intermezzo. Want een van de geestigste dingen die ik tegenkwam tijdens mijn research naar AAI, is de anekdote over Slimme Hans, een uitzonderlijk Duits paard. Er werd dit dier een hoge mate van intelligentie toegedicht omdat het o.a. zou kunnen rekenen, lezen en spellen. Nadat een student psychologie een reeks experimenten had ontworpen en het gedrag van paard Hans zorgvuldig had geobserveerd, kwam de aap uit de mouw: Hans kon niet antwoorden zonder de (onbedoelde, subtiele) cues in de lichaamstaal van zijn trainer.

(De student, Oskar Pfungst, zou met deze onderzoeken hebben bijgedragen aan manieren om wetenschappelijke gedragsobservaties zoveel mogelijk te vrijwaren van ongewenste invloeden; ook wel bekend als het observer-expectancy effect)

Neurale netwerken: a poor understanding

De 'godfather' van AAI is Ian Goodfellow. (Het blog waarop hij schrijft over zijn onderzoek is getiteld 'Clever Hans'🐎). Goodfellow deed al vroeg onderzoek naar manipulatie van beeldherkenning-systemen, en met name de zwaktes bij de daarvoor gebruikte deep learning-modellen. Het probleem: iedere pixel kan doorslaggevend zijn voor een (mis)labeling, maar je weet eigenlijk nooit welke pixel. Dit komt omdat neurale netwerken (die gebruikt worden bij deep learning) niet goed navolgbaar zijn wat betreft de totstandkoming van hun keuzes en voorspellingscores. Met de woorden van Conor O'Sullivan:

"We have a poorer understanding of the inner workings."

Taalmodellen as exposers

Je blijkt, door te zoeken met bepaalde zins- en woordcombinaties in een van de bekendste AI-toepassingen voor taalgeneratie (GPT-3), allerlei gevoelige en persoonlijke informatie van mensen naar boven te kunnen halen. Het taalmodel is namelijk getraind op miljarden teksten die overal en nergens van het web zijn geplukt. Ontwikkelaar OpenAI zegt hier aan te werken.

'Objective or Biased'

Een voorbeeld dat in deze nieuwsbrief al eerder voorbij kwam is het zogeheten black box adversarial auditing door onderzoeksjournalisten van het Duitse Bayerische Rundfunk. Zij wilden weten of een sollicitatie-algoritme dat gebruikt wordt door grote bedrijven als BMW en Lufthansa de kandidaatvideo's wel op inhoud en niet op uiterlijke kenmerken beoordeelt. Ze konden geen toegang krijgen tot het algoritme zelf (dan zou het 'whitebox' heten), dus besloten ze met diverse acteurs te werken die allemaal hetzelfde script gebruikte, waarop ze volgens gekwalificeerde experts wel uitgenodigd zouden moeten worden...

Wat kan jij doen?

CV Dazzle - make-up om AI te foppen (Bron: instagram.com/martymoment)

Adversarial make-up & kleding

Er zijn op het web talloze voorbeelden te vinden van manipulatieve make-up. Google maar eens op 'adversarial make-up', 'Fooling Face recognition' of 'Computer Vision Dazzle' (zoals hierboven).

In de science fiction roman Zero History (2010) van William Gibson draagt de hoofdpersoon een bepaald t-shirt waardoor hij onzichtbaar wordt voor camera-surveillance systemen:

"Pep, in black cyclist's pants, wore the largest, ugliest T-shirt she'd ever seen, in a thin, cheap-looking cotton the color of ostomy devices, that same imaginary Caucasian flesh-tone. There were huge features screened across it in dull black halftone, asymmetrical eyes at breast height, a grim mouth at crotch-level. [...] it was somehow beyond punk, beyond art, and fundamentally, somehow, an affront."

Drone Survival Guide

Het aanbrengen van digitale dan wel fysieke elementen in uiterlijk vertoon blijkt uitzonderlijk goed te werken om AI-systemen om de tuin te leiden of om niet herkend te worden. De Nederlandse ontwerper Ruben Pater ontwikkelde daartoe een aantal jaar geleden al de Drone Survival Guide.

Al deze voorbeelden label ik als de AAI-categorie 'evasion'.

AAI Awareness

Naast AI-wetenschappers die voor dit kat-en-muis-spel nieuwe modellen trainen om adversarial attacks te leren herkennen, heeft de consultancy club Accenture een 'know your threat' lijstje gemaakt voor elke organisatie die AAI wil voorkomen of aanval wil pareren.

Zelf doen? Aanval met de CoLab!

Met het volgende Colab notebook kun je, als je netjes de instructies volgt, zelf een AAI-aanval uitproberen met bovenstaande labrador. Je gaat de afbeelding voor ons mensen zo goed als onzichtbaar manipuleren, om er vervolgens een AI mee voor de gek te houden. #BecomingTommAICooper

This was one of the first and most popular attacks to fool a neural network

Als je denkt dat je model is gestolen..

En mocht jij je in de superselecte niche-groep van next level machine learning modelbouwers bevinden die het vermoeden heeft dat er iets niet pluis is met het model van de concurrent, check dan deze blogpost:

by Pratyush Maini, Mohammad Yaghini and Nicolas Papernot

A short introduction to adversarial machine learning, produced by the UC Berkeley Center for Long-Term Cybersecurity as part of the "What? So What? Now What?...

βœ… Dat was 'm weer! Dank voor het lezen!