Du kanske har hört talas om motstridiga attacker i relation till artificiell intelligens och maskininlärning, men vad är de? Vilka är deras mål?

Teknik innebär ofta att våra liv är bekvämare och säkrare. Samtidigt har dock sådana framsteg låst upp mer sofistikerade sätt för cyberkriminella att attackera oss och korrumpera våra säkerhetssystem, vilket gör dem maktlösa.

Artificiell intelligens (AI) kan användas av både cybersäkerhetsproffs och cyberkriminella; på samma sätt kan maskininlärningssystem (ML) användas på både gott och ont. Denna brist på moralisk kompass har gjort att motstridiga attacker i ML blivit en växande utmaning. Så vad är egentligen motstridiga attacker? Vad är deras syfte? Och hur kan du skydda dig mot dem?

Vad är motstridiga attacker i maskininlärning?

Adversarial ML eller adversarial attacker är cyberattacker som syftar till att lura en ML-modell med skadlig input och därmed leda till lägre noggrannhet och dålig prestanda. Så trots sitt namn är adversarial ML inte en typ av maskininlärning utan en mängd olika tekniker som cyberkriminella – aka motståndare – använder för att rikta in sig på ML-system.

instagram viewer

Huvudsyftet med sådana attacker är vanligtvis att lura modellen att dela ut känslig information, misslyckas med att upptäcka bedrägliga aktiviteter, producera felaktiga förutsägelser eller korrumpera analysbaserade rapporterar. Även om det finns flera typer av kontradiktoriska attacker, är de ofta inriktade på djupinlärning-baserad skräppostdetektering.

Du har säkert hört talas om en motståndare-i-mitten attack, som är en ny och mer effektiv sofistikerad nätfisketeknik som involverar stöld av privat information, sessionscookies och till och med kringgå metoder för multi-factor authentication (MFA). Lyckligtvis kan du bekämpa dessa med phishing-resistent MFA-teknik.

Typer av kontradiktoriska attacker

Det enklaste sättet att klassificera typer av kontradiktoriska attacker är att dela upp dem i två huvudkategorier—riktade attacker och oriktade attacker. Som föreslagits har riktade attacker ett specifikt mål (som en viss person) medan oriktade attacker inte har någon specifik i åtanke: de kan rikta sig mot nästan vem som helst. Inte överraskande är oriktade attacker mindre tidskrävande men också mindre framgångsrika än sina riktade motsvarigheter.

Dessa två typer kan delas in ytterligare i vit låda och svart låda motstridiga attacker, där färgen antyder kunskapen eller bristen på kunskap om den riktade ML-modellen. Innan vi dyker djupare in i white-box- och black-box-attacker, låt oss ta en snabb titt på de vanligaste typerna av motstridiga attacker.

  • Undvikande: Undvikande attacker används oftast i scenarier med skadlig programvara och försöker undvika upptäckt genom att dölja innehållet i e-postmeddelanden med skadlig programvara och spam. Genom att använda trial-and-error-metoden manipulerar angriparen data vid tidpunkten för distributionen och korrumperar konfidentialiteten för en ML-modell. Biometrisk spoofing är ett av de vanligaste exemplen på en undanflyktsattack.
  • Dataförgiftning: Även kända som kontaminerande attacker, dessa syftar till att manipulera en ML-modell under tränings- eller implementeringsperioden och minska noggrannheten och prestanda. Genom att införa skadliga indata stör angripare modellen och gör det svårt för säkerhetspersonal att upptäcka vilken typ av exempeldata som korrumperar ML-modellen.
  • Bysantinska förkastningar: Denna typ av attack orsakar förlust av en systemtjänst som ett resultat av ett bysantinskt fel i system som kräver konsensus mellan alla dess noder. När en av dess betrodda noder blir skurk, kan den luncha en DoS-attack (denial-of-service) och stänga av systemet och förhindra andra noder från att kommunicera.
  • Modellextraktion:I en extraktionsattack kommer motståndaren att undersöka ett black-box ML-system för att extrahera dess träningsdata eller – i värsta fall – själva modellen. Sedan, med en kopia av en ML-modell i sina händer, kan en motståndare testa sin skadliga programvara mot antimalware/antivirus och ta reda på hur man kan kringgå den.
  • Slutledningsattacker: Liksom med extraktionsattacker är syftet här att få en ML-modell att läcka information om dess träningsdata. Men motståndaren kommer sedan att försöka räkna ut vilken datamängd som användes för att träna systemet, så att de kan utnyttja sårbarheter eller fördomar i det.

White-Box vs. Black-Box vs. Grey-Box motstridiga attacker

Det som skiljer dessa tre typer av kontradiktoriska attacker åt är mängden kunskap som motståndare har om hur ML-systemen fungerar som de planerar att attackera. Medan white-box-metoden kräver uttömmande information om den riktade ML-modellen (inklusive dess arkitektur och parametrar), kräver black-box-metoden ingen information och kan bara observera dess utgångar.

Gråbox-modellen står under tiden i mitten av dessa två ytterligheter. Enligt den kan motståndare ha viss information om datamängden eller andra detaljer om ML-modellen men inte allt.

Hur kan du försvara maskininlärning mot kontradiktoriska attacker?

Medan människor fortfarande är den kritiska komponenten för att stärka cybersäkerhet,AI och ML har lärt sig hur man upptäcker och förhindrar skadliga attacker— de kan öka noggrannheten för att upptäcka skadliga hot, övervaka användaraktivitet, identifiera misstänkt innehåll och mycket mer. Men kan de trycka tillbaka motstridiga attacker och skydda ML-modeller?

Ett sätt vi kan bekämpa cyberattacker är att träna ML-system att känna igen motståndsangrepp i förväg genom att lägga till exempel i deras träningsförfarande.

Till skillnad från denna brute force-metod, föreslår den defensiva destillationsmetoden att vi använder den primära, mer effektiva modellen för att räkna ut ut de kritiska egenskaperna hos en sekundär, mindre effektiv modell och förbättra sedan noggrannheten hos den sekundära med den primära ett. ML-modeller tränade med defensiv destillation är mindre känsliga för kontradiktoriska prover, vilket gör dem mindre mottagliga för exploatering.

Vi skulle också ständigt kunna modifiera algoritmerna som ML-modellerna använder för dataklassificering, vilket kan göra kontradiktoriska attacker mindre framgångsrika.

En annan anmärkningsvärd teknik är funktionssqueezing, som kommer att minska det sökutrymme som är tillgängligt för motståndare genom att "pressa ut" onödiga inmatningsfunktioner. Här är syftet att minimera falska positiva resultat och göra upptäckt av motstridiga exempel mer effektiv.

Skyddar maskininlärning och artificiell intelligens

Motstridiga attacker har visat oss att många ML-modeller kan krossas på överraskande sätt. Trots allt är kontradiktorisk maskininlärning fortfarande ett nytt forskningsfält inom cybersäkerhetsområdet, och det kommer med många komplexa problem för AI och ML.

Även om det inte finns en magisk lösning för att skydda dessa modeller mot alla kontradiktoriska attacker framtiden kommer sannolikt att ge mer avancerade tekniker och smartare strategier för att tackla detta fruktansvärda motståndare.