Läsare som du hjälper till att stödja MUO. När du gör ett köp med hjälp av länkar på vår webbplats kan vi tjäna en affiliate-provision. Läs mer.

OpenAIs Whisper är en ny AI-driven lösning som kan förvandla din röst till text. Det bästa av allt är att det kostar noll.

Det finns dock en hake: det är mer utmanande att installera och använda än ditt genomsnittliga Windows-verktyg. Speciellt om du vill använda din Nvidia GPU: s Tensor Cores för att ge den en fin boost.

Oroa dig inte, dock. Det är därför vi är här! Läs vidare för att ta reda på hur du installerar och använder den, men också, om du äger en, för att få Whisper att dra nytta av din Nvidia GPU.

Vad är OpenAI's Whisper?

ChatGPT är på modet nuförtiden, och vi har redan sett det hur du kan använda ChatGPT av OpenAI. Och ändå är det inte det enda intressanta projektet av OpenAI.

Drivs av djupinlärning och neurala nätverk, Whisper är ett naturligt språkbehandlingssystem som kan "förstå" tal och transkribera det till text. Men det är också sin egen sak, som sitter på en plats mitt bland alla liknande lösningar:

instagram viewer
  • Whisper är en AI-lösning "utbildad" på naturligt språk. Så det är bättre på att förstå "normalt" mänskligt tal än äldre lösningar.
  • Whisper kommer inte med något gränssnitt och kan inte heller spela in ljud. Den kan bara ta befintliga ljudfiler och utdatafiler.
  • Eftersom det är bra på att "göra mening med språket" har Whisper också superkraften med automatisk översättning i ett enda steg.
  • Whisper är inte en onlinetjänst och kan fungera helt offline.
  • Om du har en relativt modern Nvidia GPU (GTX970 eller nyare) kan Whisper köras i "hårdvaruaccelererat läge" för att öka hastigheten.
  • Det finns inget krav att registrera sig, köpa en licens eller köpa en prenumeration.

Varför stöds inte AMD GPU: er?

För att GPU: er ska vara användbara för mer än grafik, måste de fungera som helt programmerbara processorer. Det är därför Nvidia skapade CUDA, officiellt ansett som "en parallell datorplattform och programmeringsmodell". För att lära dig mer om CUDA och relaterad hårdvara ("CUDA-kärnor"), läs vår artikel om vad är CUDA-kärnor och hur de förbättrar PC-spel.

CUDA är egenutvecklad Nvidia-teknik, endast kompatibel med Nvidia GPU: er. De närmaste alternativen för AMD: s hårdvara är OpenCL och Radeon Compute Platform. För att lära dig mer om hur varje företags lösningar jämförs, läs vår artikel om AMD Compute Units vs. Nvidia CUDA-kärnor.

Jämfört med alternativen anses CUDA vara mer mogen, mer presterande och lättare att använda. De flesta utvecklare riktar sig alltså bara till CUDA, vilket i sin tur innebär att deras mjukvara bara drar nytta av hårdvarufunktionerna på Nvidia GPU: er. Och det inkluderar Whisper.

Hur man laddar ner och installerar Whisper

Tyvärr är Whisper inte en fristående app som du kan ladda ner, installera och köra. Den förlitar sig på annan programvara, som också måste installeras.

För Windows, för att hålla den här guiden enkel, kommer vi att använda Chocolatey flitigt för att installera de flesta nödvändiga programvarudelar. Kolla vår guide på det snabbaste sättet att installera Windows-programvara för mer information om Chocolatey.

För Linux och Mac bör installationsprocessen (exklusive sökvägsvariabeln i Windows och lättanvända batchfiler som vi skapar) vara liknande.

  1. För att installera och använda Whisper måste du ha Pytonorm och dess PIP verktyget installerat och lagt till i Windows-variabeln "Path". För information om det, kolla vår artikel om hur man installerar Python PIP på Windows, Mac och Linux.
  2. Installera FFMPEG genom Chocolatey med detta kommando:
    chokolade Installera ffmpeg
    Installera också dess Python-version med:
    pip3 Installera python-ffmpeg
  3. Slutligen, installera Whisper från dess Github-sida med:
    pip3 installera git+https://github.com/openai/whisper.git

Skaffa Whispers CUDA-aktiverade version

Även om Whisper inte använder Nvidia GPU: er fackla paketet det förlitar sig på erbjuder en CUDA-accelererad version. Att använda denna istället för den "vanliga" versionen kan hjälpa Whisper att slutföra sina transkriptioner mycket snabbare med hjälp av din Nvidia GPU.

För att få Whisper använd CUDA-kärnorna på din Nvidia GPU:

  1. Om du redan har "vanilla"-versionen av ficklampan installerad, avinstallera och rensa rester av den med:
    pip3 avinstallera fackla
    När det är klart, följ upp det med:
    pip cacherena
  2. Installera torchs CUDA-aktiverade version med:
    pip3 Installera torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. För att kontrollera om Whisper kan använda din Nvidia GPU, använd:
    viska --hjälp | findstr -i pytorch
    Du borde se (standard: cuda) istället för (standard: cpu).

Vad du ska göra om Torch inte kan installeras

Om du stöter på felet "ingen version hittades" när du installerar ficklampan, kan du behöva installera en äldre version av Python parallellt med din nuvarande.

Använd detta kommando för att göra det:

chokolade Installera pytonorm --version OLDER_VERSION --side-by-side

Ersätt "OLDER_VERSION" med en version som 3.10.

Använd sedan sökvägen till den sekundära versionen för alla "generiska" Whisper-kommandon (t.ex. "c:\Python310\Scripts\pip.exe" istället för bara "pip").

Hur man spelar in din röst

Du kan använda vilken ljudinspelningsapp som helst för att förvandla din röst till en WAV- eller MP3-fil. Windows innehåller en sådan app — för mer information om det, se hur du använder Windows 10 Voice Recorder-appen.

För ett mer fullfjädrat alternativ, försök Djärvhet. Lär dig hur du gör det med vår guide på hur man använder Audacity för att spela in ljud på Windows och Mac.

Hur man börjar transkribera med Whisper

Även om Whisper inte kommer med ett användarvänligt GUI, är användningen extremt enkel.

Låt oss säga att vi har filen SenasteNote.mp3 som innehåller tal på grekiska, i mapp c:\MyAudioFiles, och vill översätta den till engelska och transkribera den till en textfil.

  1. Vi börjar med att springa Kommandotolken eller PowerShell.
  2. Vi "byter katalog" där ljudfilen lagras med detta kommando:
    CD C:\MyAudioFiles
  3. Vi släpper lös Whisper på filen med:
    viska--modellbas--språkgr--uppgiftÖversättSenaste anteckning.mp3

När den har bearbetats kommer textfilen (med namnet "LatestNote.mp3.txt") att visas i samma mapp. Öppna den i en textredigerare som Anteckningsblock för att se den översatta texten.

Vi använde ett översättningsexempel eftersom engelsk transkription är ännu enklare: du behöver bara "tappa" flaggorna "--language" och "-task". Således, för vanlig transkription, skulle kommandot ovan vara:

viska--modellbasSenaste anteckning.mp3

"Modell"-flaggan krävs eftersom Whisper använder ett av olika alternativ. Låt oss utöka dem för att hjälpa dig välja det bästa för dina behov.

Vilken modell ska man välja?

Whisper erbjuder olika språkmodeller. Ju större modellen är, desto mer förbättrad noggrannhet, men också högre hårdvarukrav. Dom är:

  1. Mycket liten.
  2. Bas.
  3. Små.
  4. Medium.
  5. Stor.

De flesta som talar engelska som modersmål borde klara sig bra mycket liten eller bas modeller. Personer som inte har engelska som modersmål kan se bättre resultat med större modeller, t.ex små och medium.

Observera dock att de mellanstora och stora modellerna kräver över 8 GB VRAM (det vill säga "din GPUs minne").

För att välja en av dem, ange modellen efter "--model"-omkopplaren i kommandot:

viska --modell tiny/small/medium/large [fil]

Till exempel:

viska--modellsmåMy_Voice_Note.mp3

Hur du effektiviserar din transkription

Att behöva skriva hela Whisper-kommandot varje gång du vill transkribera lite ljud kan snabbt bli tråkigt. Låt oss skapa en globalt tillgänglig batchfil för att effektivisera processen.

  1. Springa Windows utforskaren och besök din C:-enhet.
  2. Skapa en mapp för dina skript och kopiera dess sökväg till Urklipp.
  3. I Windows Start-meny, sök efter "sökväg" och välj Redigera systemmiljövariablerna.
  4. Hitta Väg variabel under Användarvariabler för YOUR_USERNAME. Dubbelklicka på den för att redigera den. Klicka på Ny, och klistra in sökvägen till din skriptmapp. Klicka på OK att acceptera ändringarna.
  5. Återgå till din skriptmapp i Utforskaren i Windows. Skapa en ny batchfil där med namnet "wht.bat". "Inuti" den, placera detta kommando:
    viska --model tiny --language sv %1
  6. Skapa ytterligare två batchfiler, "whs" och "whm".
  7. Placera detta i det första skriptet:
    viska --model small --language sv %1
  8. Placera detta i den andra:
    viska --model medium --language sv %1

Grattis, du har nu tre skript för att enkelt använda Whispers små, små och medelstora modeller med dina ljudfiler! Så här transkriberar du en ljudfil till text:

  1. Leta upp filen med Windows File Explorer.
  2. Högerklicka på en tom plats och välj Öppna i Terminal.
  3. Skriv det här kommandot och ersätt "wht" med "whs" eller "whm" för att använda små eller medelstora språkmodeller:
    whtDIN_LJUDFIL.mp3

Skriva med ljudets hastighet med viskning

Inte ens de snabbaste touch-typisterna kan matcha hastigheten med vilken vi pratar. Men tills nyligen var det inte optimalt att prata istället för att skriva för att skapa dokument.

De flesta röst-till-text-lösningar gav mediokra resultat. Du kunde hitta några lösningar värda att prova, men de var komplicerade att använda eller dyra. Tack och lov ändrade Whisper allt det.

Efter stegen ovan bör du vara redo att transkribera eller översätta din röst med hög noggrannhet, med bara ett enda kommando.