Denna stora språkmodell har tränats på den mörka webben för att bedöma cybersäkerhetshot. Här är vad du behöver veta.
Populariteten för stora språkmodeller (LLM) ökar i höjden, med nya som kontinuerligt kommer in på scenen. Dessa modeller, som ChatGPT, tränas vanligtvis på olika internetkällor, inklusive artiklar, webbplatser, böcker och sociala medier.
I ett aldrig tidigare skådat drag utvecklade ett team av sydkoreanska forskare DarkBERT, en LLM utbildad på datauppsättningar uteslutande från den mörka webben. Deras mål var att skapa ett AI-verktyg som överträffar befintliga språkmodeller och hjälper hotforskare, brottsbekämpande och cybersäkerhetspersonal att bekämpa cyberhot.
Vad är DarkBERT?
DarkBERT är en transformatorbaserad kodarmodell baserad på RoBERTa-arkitekturen. LLM utbildades på miljontals mörka webbsidor, inklusive data från hackingforum, bedrägeriwebbplatser och andra onlinekällor förknippade med illegala aktiviteter.
Termen "mörk webb" hänvisar till en dold internetsektion
otillgänglig via vanliga webbläsare. Undersektionen är känd för att hysa anonyma webbplatser och marknadsplatser som är ökända för olagliga aktiviteter, såsom handel med stulen data, droger och vapen.Att träna DarkBERT fick forskarna tillgång till det mörka nätet genom Tor-nätverket och samlade in rådata. De filtrerade noggrant denna data med hjälp av tekniker som deduplicering, kategoribalansering och förbearbetning till skapa en förfinad mörk webbdatabas, som sedan matades till RoBERTa under cirka 15 dagar för att skapa DarkBERT.
Möjliga användningsområden för DarkBERT i cybersäkerhet
DarkBERT har en anmärkningsvärd förståelse för cyberbrottslingars språk och utmärker sig på att upptäcka specifika potentiella hot. Den kan undersöka den mörka webben och framgångsrikt identifiera och flagga cybersäkerhetshot som dataläckor och ransomware, vilket gör det till ett potentiellt användbart verktyg för att bekämpa cyberhot.
För att utvärdera effektiviteten av DarkBERT jämförde forskare det med två kända NLP-modeller, BERT och Roberta, utvärderar deras prestanda över tre avgörande cybersäkerhetsrelaterade användningsfall, forskningen, postat på arxiv.org, pekar på.
1. Övervaka Dark Web-forum för potentiellt skadliga trådar
Övervakning av mörka webbforum, som ofta används för att utbyta olaglig information, är avgörande för att identifiera potentiellt farliga trådar. Att manuellt granska dessa kan dock vara tidskrävande, vilket gör automatisering av processen till fördel för säkerhetsexperter.
Forskarna fokuserade på potentiellt skadliga aktiviteter i hackingforum och tog fram riktlinjer för kommentarer för anmärkningsvärda trådar, inklusive delning av konfidentiell data och distribution av kritisk skadlig programvara eller sårbarheter.
DarkBERT överträffade andra språkmodeller när det gäller precision, återkallelse och F1-poäng, och framstod som det överlägsna valet för att identifiera anmärkningsvärda trådar på den mörka webben.
2. Upptäck webbplatser som är värd för konfidentiell information
Hackare och ransomware-grupper använder den mörka webben för att skapa läckagesidor, där de publicerar konfidentiell data som stulits från organisationer som vägrar att följa krav på lösen. Andra cyberbrottslingar laddar bara upp läckt känslig data, som lösenord och finansiell information, till den mörka webben med avsikten att sälja den.
I sin studie har forskarna samlat in data från ökända ransomware-grupper och analyserade webbplatser för läckage av ransomware som publicerar organisationers privata data. DarkBERT överträffade andra språkmodeller när det gällde att identifiera och klassificera sådana sajter, vilket visade upp sin förståelse för språket som används i underjordiska hackforum på den mörka webben.
DarkBERT utnyttjar fill-mask-funktionen, en inneboende egenskap hos BERT-familjens språkmodeller, för att exakt identifiera nyckelord som är associerade med illegala aktiviteter, inklusive drogförsäljning på den mörka webben.
När ordet "MDMA" maskerades på en drogförsäljningssida, genererade DarkBERT drogrelaterade ord, medan andra modeller föreslog allmänna ord och termer som inte var relaterade till droger, som olika yrken.
DarkBERTs förmåga att identifiera nyckelord relaterade till olaglig verksamhet kan vara värdefull för att spåra och hantera nya cyberhot.
Är DarkBERT tillgängligt för allmänheten?
DarkBERT är för närvarande inte tillgängligt för allmänheten, men forskarna är öppna för förfrågningar om att använda det för akademiska ändamål.
Utnyttja kraften i AI för att upptäcka och förebygga hot
DarkBERT har förutbildats på mörk webbdata och överträffar befintliga språkmodeller över flera användningsfall för cybersäkerhet, vilket positionerar sig som ett avgörande verktyg för att främja forskning om mörk webb.
Den mörka webbtränade AI: n har potential att användas för olika cybersäkerhetsuppgifter, inklusive att identifiera webbplatser som säljer läckta konfidentiell data, övervakning av mörka webbforum för att upptäcka olaglig informationsdelning och identifiera nyckelord relaterade till cyber hot.
Men du bör alltid komma ihåg att, precis som andra LLM: er, är DarkBERT ett pågående arbete, och dess prestanda kan förbättras genom kontinuerlig träning och finjustering.