GPT är inte den enda språkbehandlingsmodellen i stan.

AI-verktyg som ChatGPT har blivit otroligt populära sedan de släpptes. Sådana verktyg tänjer på gränserna för naturlig språkbehandling (NLP), vilket gör det lättare för AI att föra konversationer och bearbeta språk precis som en verklig person.

Som du kanske vet förlitar sig ChatGPT på Generative Pre-trained Transformer-modellen (GPT). Det är dock inte den enda förutbildade modellen som finns.

Under 2018 utvecklade ingenjörerna på Google BERT (Bidirectional Encoder Representation from Transformers), en förutbildad modell för djupinlärning utformad för att förstå sammanhanget för ord i en mening, så att den kan utföra uppgifter som sentimentanalys, frågesvar och namngiven enhetsigenkänning med hög noggrannhet.

Vad är BERT?

BERT är en modell för djupinlärning utvecklad av Google AI Research som använder oövervakad inlärning för att förstå naturliga språkfrågor bättre. Modellen använder en transformatorarkitektur för att lära sig dubbelriktade representationer av textdata, vilket gör att den bättre förstår sammanhanget för ord i en mening eller ett stycke.

instagram viewer

Detta gör det lättare för maskiner att tolka mänskligt språk som det talas i vardagen. Det är viktigt att nämna att datorer historiskt har haft svårt att bearbeta språk, särskilt att förstå sammanhanget.

Till skillnad från andra språkbehandlingsmodeller är BERT utbildad för att utföra mer än 11 ​​vanliga NLP-uppgifter, vilket gör det till ett extremt populärt val i maskininlärningskretsar.

Jämfört med andra populära transformatormodeller som GPT-3 har BERT en distinkt fördel: den är dubbelriktad och kan som sådan utvärdera sammanhang från vänster till höger och höger till vänster. GPT-3.5 och GPT-4 tar bara hänsyn till vänster till höger sammanhang, medan BERT vänder sig till båda.

Språkmodeller som GPT använder enkelriktad kontext för att träna modellen, vilket tillåter ChatGPT för att utföra flera uppgifter. Enkelt uttryckt analyserade dessa modeller sammanhanget för textinmatning från vänster till höger eller, i vissa fall, från höger till vänster. Detta enkelriktade tillvägagångssätt har dock begränsningar när det kommer till textförståelse, vilket orsakar felaktigheter i genererade utdata.

I huvudsak betyder detta att BERT analyserar en menings fullständiga sammanhang innan de ger ett svar. Det är dock relevant att nämna att GPT-3 tränades på en betydligt större korpus av text (45TB) jämfört med BERT (3TB).

BERT är en maskerad språkmodell

En viktig sak att veta här är att BERT förlitar sig på maskering för att förstå sammanhanget i en mening. När man bearbetar en mening tar den bort delar av den och förlitar sig på modellen för att förutsäga och komplettera luckorna.

Detta tillåter den att "förutsäga" sammanhanget, i huvudsak. I meningar där ett ord kan ha två olika betydelser ger detta maskerade språkmodeller en tydlig fördel.

Hur fungerar BERT?

BERT tränades på en datauppsättning på över 3,3 miljarder ord (som förlitar sig på Wikipedia för upp till 2,5 miljarder ord) och BooksCorpus från Google för 800 miljoner ord.

BERT: s unika dubbelriktade sammanhang möjliggör samtidig bearbetning av text från vänster till höger och vice versa. Denna innovation förbättrar modellens förståelse av mänskligt språk, vilket gör att den kan förstå komplexa relationer mellan ord och deras sammanhang.

Det dubbelriktade elementet har positionerat BERT som en revolutionerande transformatormodell, som driver anmärkningsvärda förbättringar i NLP-uppgifter. Ännu viktigare, det hjälper också att beskriva den rena skickligheten hos verktyg som används artificiell intelligens (AI) att bearbeta språket.

BERT: s effektivitet beror inte bara på dess dubbelriktade funktion utan också på hur den var förtränad. BERT: s förträningsfas bestod av två väsentliga steg, nämligen masked language model (MLM) och nästa meningsprediktion (NSP).

Medan de flesta förträningsmetoder maskerar individuella sekvenselement, använder BERT MLM för att slumpmässigt maskera en procentandel av inmatade tokens i en mening under träning. Detta tillvägagångssätt tvingar modellen att förutsäga de saknade orden, med hänsyn till sammanhanget från båda sidor av det maskerade ordet - därav dubbelriktigheten.

Sedan, under NSP, lär sig BERT att förutsäga om mening X verkligen följer in i mening Y. Denna förmåga tränar modellen att förstå meningssamband och övergripande sammanhang, vilket i sin tur bidrar till modellens effektivitet.

Finjustera BERT

Efter förträning gick BERT vidare till en finjusteringsfas, där modellen anpassades till olika NLP-uppgifter, inklusive sentimentanalys, namngiven enhetsigenkänning och frågesvarssystem. Finjustering innebär övervakad inlärning, utnyttjande av märkta datamängder för att förbättra modellens prestanda för specifika uppgifter.

BERT: s träningsupplägg anses vara "universellt" eftersom det tillåter samma modellarkitektur att hantera olika uppgifter utan behov av omfattande modifieringar. Denna mångsidighet är ännu en anledning till BERT: s popularitet bland NLP-entusiaster.

Till exempel används BERT av Google för att förutsäga sökfrågor och för att plugga in saknade ord, särskilt när det gäller sammanhang.

Vad används BERT vanligtvis för?

Medan Google använder BERT i sin sökmotor, har den flera andra applikationer:

Sentimentanalys

Sentimentanalys är en kärntillämpning av NLP som handlar om att klassificera textdata baserat på de känslor och åsikter som är inbäddade i dem. Detta är avgörande inom många områden, från att övervaka kundnöjdhet till att förutsäga trender på aktiemarknaden.

BERT lyser i denna domän, eftersom den fångar den känslomässiga essensen av textinmatning och exakt förutsäger känslan bakom orden.

Textsammanfattning

På grund av dess dubbelriktade karaktär och uppmärksamhetsmekanismer kan BERT förstå varje del av textsammanhang utan att förlora viktig information. Resultatet är högkvalitativa, sammanhängande sammanfattningar som korrekt återspeglar det betydande innehållet i indatadokumenten.

Namngiven Entity Recognition

Namngiven enhet erkännande (NER) är en annan viktig aspekt av NLP som syftar till att identifiera och kategorisera enheter som namn, organisationer och platser i textdata.

BERT är verkligen transformerande i NER-utrymmet, främst på grund av dess förmåga att känna igen och klassificera komplexa entitetsmönster – även när de presenteras i intrikata textstrukturer.

Frågesvarssystem

BERT: s kontextuella förståelse och jordning i dubbelriktade kodare gör det skickligt på att extrahera korrekta svar från stora datamängder.

Det kan effektivt bestämma sammanhanget för en fråga och hitta det mest lämpliga svaret i texten data, en förmåga som kan utnyttjas för avancerade chatbots, sökmotorer och till och med virtuella assistenter.

Maskinöversättning via BERT

Maskinöversättning är en viktig NLP-uppgift som BERT har förbättrat. Transformatorarkitekturen och den dubbelriktade förståelsen av sammanhang bidrar till att bryta barriärerna för att översätta från ett språk till ett annat.

Även om BERT främst fokuserar på engelska, kan BERT: s flerspråkiga varianter (mBERT) appliceras på maskin översättningsproblem för många språk, vilket öppnar dörrar till mer inkluderande plattformar och kommunikation medium.

AI och maskininlärning fortsätter att tänja på nya gränser

Det råder ingen tvekan om att modeller som BERT förändrar spelet och öppnar nya forskningsvägar. Men ännu viktigare, sådana verktyg kan enkelt integreras i befintliga arbetsflöden.