OpenAI har gett ChatGPT möjligheten att tala med en syntetiserad röst, och den kommer snart till din smartphone.

ChatGPT kommer att bli en interaktiv generativ AI-upplevelse. OpenAI avslöjade att världens ledande AI-chattbot kommer att kunna tala och svara på användarfrågor med en syntetiserad, förmodligen AI-genererad, röst.

Tillsammans med sin nyfunna röst kommer ChatGPT också att kunna svara på och diskutera specifika bilder som laddats upp till den eller tagits när man använder ChatGPT Android- eller iOS-appen. Bildigenkänningsfunktionen låter som Google Lens och andra appar som använder neurala nätverk för att upptäcka data och information korrekt.

OpenAI ger ChatGPT en röst

Den 25 september 2023, ChatGPT-utvecklare OpenAI avslöjade det skulle ge sin världsledande generativa AI-chatbot en röst. ChatGPT-användare kan prata direkt med chatboten och begära att den pratar tillbaka, vilket effektivt tillåter ChatGPT att konversera direkt med rösten för första gången.

OpenAIs exempelklipp visar en kvinna som ber ChatGPT att skapa en unik godnattsaga, som ChatGPT vederbörligen svarar på med en kvinnlig syntetiserad röst.

instagram viewer

Enligt Trådbunden, utvecklades den nya text-till-tal-modellen internt. Det kan generera "mänskligt" ljud från text och några sekunders exempel på tal (använder OpenAI Whisper-modellen) och tala i olika toner och stilar. Du kan hitta en rad röstprover på OpenAIs blogg.

Vissa företag använder redan OpenAI: s nya röstmodell. Till exempel använder Spotify OpenAIs text-till-tal-modell för att översätta podcaster till olika språk, och kombinerar ChatGPT: s språköversättningsförmåga med dess nya talförmåga.

ChatGPT: s nya text-till-tal-modell är endast tillgänglig för Plus- och Enterprise-prenumeranter som använder den officiella Android- och iOS-appar och förväntas rullas ut inom de närmaste två veckorna (från och med den 25 september, 2023). Dessutom är den nya röstfunktionen begränsad till engelska till att börja med, även om vi förväntar oss att detta kommer att förändras snabbt.

ChatGPT kan känna igen och analysera bilder och fotografier

Den andra delen av OpenAI: s ChatGPT-uppdatering är möjligheten att analysera och prata bilder som laddats upp till verktyget. Alternativet för visuell bildanalys fanns med i GPT-4-uppdateringsvideorna men har inte diskuterats mycket sedan dess (ChatGPT-kodtolk åt sidan).

Nu får ChatGPT funktionalitet som liknar Google Lens. Du kan ladda upp en bild till ChatGPT eller ta ett fotografi med din smartphonekamera i ChatGPT-appen, och den kommer att detaljera bilden och lägga till mer sammanhang där det behövs.

Att kalla det "liknar Google Lens" gör det en orättvisa, verkligen. Möjligheten att chatta fram och tillbaka om bilden för att få mer information och sammanhang gör den extremt användbar för ett brett spektrum av inställningar. Det är dock viktigt att notera det finstilta, med OpenAI som gör det klart att det har begränsat ChatGPT: s "förmåga att analysera och göra direkta uttalanden om människor" av integritets- och noggrannhetsskäl. Ändå, kan ett OpenAI-drivet "Who Is This"-verktyg vara i arbete för framtiden? (Låt oss hoppas inte!)

Precis som den nya text-till-tal-modellen kommer OpenAI att lansera bildigenkänning under de kommande två veckorna, även om den kommer att vara tillgänglig på alla plattformar, inte bara ChatGPT-appen.

Sekretess, säkerhet och andra problem

Konsekvenserna av en röstdriven ChatGPT är skarpa. Visst, det är spännande. Möjligheten att skapa en unikt syntetiserad röst med bara ett kort utdrag som exempel har dock betydande integritets- och säkerhetsproblem. Potentialen för illvilliga aktörer att utnyttja dessa verktyg är enorm, och som med alla generativa AI-verktyg, när andan väl är ur flaskan, kommer den absolut inte att gå in igen. Ingen mängd AI-reglering från regeringar eller tankeledare kan vända strömmen tillbaka.

Till och med OpenAIs varning om ämnet verkar gå runt det uppenbara trots att de nämner problemen:

Men dessa möjligheter innebär också nya risker, till exempel risken för illvilliga aktörer att utge sig för offentliga personer eller begå bedrägerier. Det är därför vi använder den här tekniken för att driva ett specifikt användningsfall – röstchatt.

Med tanke på att detta är toppen av isberget, förvänta dig tillbakadragande mot ChatGPT: s nyfunna röst, särskilt en gång det finns en förutsägbar ökning av motbjudande rubriker som hävdar att ChatGPT används för att begå bedrägerier och så på.

OpenAI gör ChatGPT till Go-To AI-appen

Ju mer OpenAI lägger till användarvänliga funktioner till ChatGPT, desto mer blir det den generativa AI-appen. Som den första att nå utbredd berömmelse under den första generativa AI-boomen, leder ChatGPT fortfarande vägen och är bara app som används, trots konkurrens från sådana som Google Bard (och potentiellt Google Gemini) och Anthropic's Claude.

Så länge som OpenAI kan fortsätta att lägga till funktioner som gör ChatGPT enklare att använda, kommer det att hålla folk fast och knuffa allt närmare sitt mål om ett verkligt multimodalt AI-verktyg.