Vad är motstridiga attacker mot AI-modeller och hur kan du stoppa dem?

AI-modeller är bara så bra som den data som finns i dem. Det gör denna data till ett potentiellt mål för attacker.

Framstegen inom artificiell intelligens har haft ett betydande inflytande på olika områden. Detta har gett ett stort antal teknikentusiaster anledning till oro. När dessa tekniker expanderar till olika applikationer kan de resultera i en ökning av kontradiktoriska attacker.

Vad är motstridiga attacker inom artificiell intelligens?

Motstridiga attacker utnyttjar specifikationer och sårbarheter inom AI-modeller. De korrumperar data som AI-modeller har lärt sig av och gör att dessa modeller genererar felaktiga utdata.

Föreställ dig att en skojare byter scrabble-plattor arrangerade som ananas för att bli "applepine". Detta liknar det som inträffar vid motstridiga attacker.

För några år sedan var det normen att få några felaktiga svar eller utdata från en AI-modell. Det omvända är fallet nu, eftersom felaktigheter har blivit undantaget, där AI-användare förväntar sig nästan perfekta resultat.

instagram viewer

När dessa AI-modeller tillämpas på verkliga scenarier, kan felaktigheter vara ödesdigra, vilket gör motstridiga attacker mycket farliga. Till exempel kan klistermärken på trafikskyltar förvirra en självkörande bil och få den att flytta in i trafiken eller direkt in i ett hinder.

Typer av kontradiktoriska attacker

Det finns olika former av motstridiga attacker. Med öka integrationen av AI i vardagliga applikationer, kommer dessa attacker sannolikt att bli värre och mer komplexa.

Icke desto mindre kan vi grovt klassificera motstridiga attacker i två typer baserat på hur mycket hotaktören vet om AI-modellen.

1. White Box Attacker

I white box attacker, har hotaktörer fullständig kunskap om AI-modellens inre funktioner. De känner till dess specifikationer, träningsdata, bearbetningstekniker och parametrar. Denna kunskap gör det möjligt för dem att bygga en kontradiktorisk attack specifikt för modellen.

Det första steget i en white box-attack är att ändra den ursprungliga träningsdatan, korrumpera den på minsta möjliga sätt. De modifierade uppgifterna kommer fortfarande att vara mycket lik originalet men tillräckligt betydande för att få AI-modellen att ge felaktiga resultat.

Det är inte allt. Efter attacken utvärderar hotaktören modellens effektivitet genom att ge den motstridiga exempel—förvrängda inmatningar utformade för att få modellen att göra misstag—och analyserar resultatet. Ju mer felaktigt resultatet blir, desto mer framgångsrik blir attacken.

2. Black Box Attacker

Till skillnad från i white box-attacker, där hotaktören känner till AI-modellens inre funktioner, gör förövare av black box attacker har ingen aning om hur modellen fungerar. De observerar helt enkelt modellen från en död vinkel och övervakar dess in- och utvärden.

Det första steget i en black box-attack är att välja det ingångsmål som AI-modellen vill klassificera. Hotaktören skapar sedan en skadlig version av inmatningen genom att lägga till noggrant utformat brus, störningar i data som är osynliga för det mänskliga ögat men som kan orsaka AI-modellen felfunktion.

Den skadliga versionen matas till modellen och resultatet observeras. Resultaten som ges av modellen hjälper hotaktören att fortsätta modifiera versionen tills de är tillräckligt säkra på att den skulle felklassificera all data som matas in i den.

Tekniker som används vid motstridiga attacker

Skadliga enheter kan använda olika tekniker för att utföra motstridiga attacker. Här är några av dessa tekniker.

1. Förgiftning

Angripare kan manipulera (förgifta) en liten del av en AI-modells indata för att äventyra dess träningsdatauppsättningar och noggrannhet.

Det finns flera former av förgiftning. En av de vanligaste kallas bakdörrsförgiftning, där väldigt lite träningsdata påverkas. AI-modellen fortsätter att ge mycket exakta resultat tills den "aktiveras" för att fungera fel vid kontakt med specifika triggers.

2. Undvikande

Denna teknik är ganska dödlig, eftersom den undviker upptäckt genom att gå efter AI: s säkerhetssystem.

De flesta AI-modeller är utrustade med anomalidetekteringssystem. Undvikande tekniker använder sig av motstridiga exempel som går direkt efter dessa system.

Denna teknik kan vara särskilt farlig mot kliniska system som autonoma bilar eller medicinska diagnostikmodeller. Det är områden där felaktigheter kan få allvarliga konsekvenser.

3. Överförbarhet

Hotaktörer som använder denna teknik behöver inte förkunskaper om AI-modellens parametrar. De använder motstridiga attacker som har varit framgångsrika tidigare mot andra versioner av modellen.

Till exempel, om en motstridig attack får en bildklassificeraremodell att missta en sköldpadda för ett gevär, kan den exakta attacken få andra bildklassificerare att göra samma fel. De andra modellerna kunde ha tränats på en annan datamängd och till och med ha en annan arkitektur men kunde fortfarande falla offer för attacken.

4. Surrogatmödraskap

Istället för att gå efter modellens säkerhetssystem med hjälp av undanflyktstekniker eller tidigare framgångsrika attacker, kan hotaktören använda en surrogatmodell.

Med denna teknik skapar hotaktören en identisk version av målmodellen, en surrogatmodell. Resultaten, parametrarna och beteenden för ett surrogat måste vara identiska med originalmodellen som har kopierats.

Surrogatet kommer nu att utsättas för olika kontradiktoriska attacker tills man får det att ge ett felaktigt resultat eller utföra en felklassificering. Sedan kommer denna attack att användas på den ursprungliga mål-AI: n.

Hur man stoppar motståndsattacker

Att försvara sig mot kontradiktoriska attacker kan vara komplext och tidskrävande eftersom hotaktörer använder olika former och tekniker. Följande steg kan dock förhindra och stoppa motstridiga attacker.

1. Motstridande utbildning

Det mest effektiva steget som kan förhindra motstridiga attacker är kontradiktorisk träning, träning av AI-modeller och maskiner med hjälp av motstridiga exempel. Detta förbättrar modellens robusthet och gör att den är motståndskraftig mot de minsta ingående störningar.

2. Regelbunden revision

Det är nödvändigt att regelbundet kontrollera efter svagheter i en AI-modells anomalidetekteringssystem. Detta innebär att medvetet mata modellen med motstridiga exempel och övervaka modellens beteende till den skadliga input.

3. Datasanering

Den här metoden innebär att man söker efter skadliga indata som matas in i modellen. Efter att ha identifierat dem måste de tas bort omedelbart.

Dessa data kan identifieras med hjälp av indatavalidering, vilket innebär att data kontrolleras för mönster eller signaturer av tidigare kända kontradiktoriska exempel.

4. Säkerhetsuppdateringar

Det skulle vara svårt att gå fel med säkerhetsuppdateringar och patchar. Säkerhet i flera lager som brandväggar, anti-malware-program och system för upptäckt och förebyggande av intrång kan hjälpa till att blockera extern störning från hotaktörer som vill förgifta en AI-modell.

Motstridiga attacker kan vara en värdig motståndare

Konceptet med kontradiktoriska attacker utgör ett problem för avancerad inlärning och maskininlärning.

Som ett resultat ska AI-modeller beväpnas med försvar som motståndsutbildning, regelbunden revision, datasanering och relevanta säkerhetsuppdateringar.

About Technology - denizatm.com