OpenAI ger ChatGPT en röst för att svara på uppmaningar och kommandon

Läsare som du hjälper till att stödja MUO. När du gör ett köp med hjälp av länkar på vår webbplats kan vi tjäna en affiliate-provision. Läs mer.

ChatGPT kommer att bli en interaktiv generativ AI-upplevelse. OpenAI avslöjade att världens ledande AI-chattbot kommer att kunna tala och svara på användarfrågor med en syntetiserad, förmodligen AI-genererad, röst.

Tillsammans med sin nyfunna röst kommer ChatGPT också att kunna svara på och diskutera specifika bilder som laddats upp till den eller tagits när man använder ChatGPT Android- eller iOS-appen. Bildigenkänningsfunktionen låter som Google Lens och andra appar som använder neurala nätverk för att upptäcka data och information korrekt.

OpenAI ger ChatGPT en röst

Den 25 september 2023, ChatGPT-utvecklare OpenAI avslöjade det skulle ge sin världsledande generativa AI-chatbot en röst. ChatGPT-användare kan prata direkt med chatboten och begära att den pratar tillbaka, vilket effektivt tillåter ChatGPT att konversera direkt med rösten för första gången.

OpenAIs exempelklipp visar en kvinna som ber ChatGPT att skapa en unik godnattsaga, som ChatGPT vederbörligen svarar på med en kvinnlig syntetiserad röst.

återställning av lösenord för playstation -nätverk fungerar inte

Enligt Trådbunden , utvecklades den nya text-till-tal-modellen internt. Det kan generera 'mänskligt' ljud från text och några sekunders exempel på tal ( använder OpenAI Whisper-modellen ) och tala i olika toner och stilar. Du kan hitta en rad röstprover på OpenAIs blogg .

Vissa företag använder redan OpenAI:s nya röstmodell. Till exempel använder Spotify OpenAIs text-till-tal-modell för att översätta podcaster till olika språk, och kombinerar ChatGPT:s språköversättningsförmåga med dess nya talförmåga.

hur man fixar surfplattans pekskärm svarar inte

ChatGPT:s nya text-till-tal-modell är endast tillgänglig för Plus- och Enterprise-prenumeranter som använder de officiella Android- och iOS-apparna och förväntas rulla ut inom de kommande två veckorna (med start 25 september 2023). Dessutom är den nya röstfunktionen begränsad till engelska till att börja med, även om vi förväntar oss att detta kommer att förändras snabbt.

ChatGPT kan känna igen och och fotografier

Den andra delen av OpenAI:s ChatGPT-uppdatering är möjligheten att analysera och prata bilder som laddats upp till verktyget. Alternativet för visuell bildanalys fanns med i GPT-4-uppdateringsvideorna men har inte diskuterats mycket sedan dess ( ChatGPT-kodtolk åt sidan ).

Nu får ChatGPT funktionalitet som liknar Google Lens. Du kan ladda upp en bild till ChatGPT eller ta ett fotografi med din smartphonekamera i ChatGPT-appen, och den kommer att detaljera bilden och lägga till mer sammanhang där det behövs.

Att kalla det 'liknar Google Lens' gör det en orättvisa, verkligen. Möjligheten att chatta fram och tillbaka om bilden för att få mer information och sammanhang gör den extremt användbar för ett brett spektrum av inställningar. Det är dock viktigt att notera det finstilta, med OpenAI som gör det klart att det har begränsat ChatGPT:s 'förmåga att analysera och göra direkta uttalanden om människor' av integritets- och noggrannhetsskäl. Ändå, kan ett OpenAI-drivet 'Who Is This'-verktyg vara i arbete för framtiden? (Låt oss hoppas inte!)

Precis som den nya text-till-tal-modellen kommer OpenAI att lansera bildigenkänning under de kommande två veckorna, även om den kommer att vara tillgänglig på alla plattformar, inte bara ChatGPT-appen.

Sekretess, säkerhet och andra problem

Konsekvenserna av en röstdriven ChatGPT är skarpa. Visst, det är spännande. Möjligheten att skapa en unikt syntetiserad röst med bara ett kort utdrag som exempel har dock betydande integritets- och säkerhetsproblem. Potentialen för illvilliga aktörer att utnyttja dessa verktyg är enorm, och som med alla generativa AI-verktyg, när andan väl är ur flaskan, kommer den absolut inte att gå in igen. Ingen mängd AI-reglering från regeringar eller tankeledare kan vända tillbaka tidvattnet.

Till och med OpenAIs varning om ämnet verkar gå runt det uppenbara trots att de nämner problemen:

Windows 10 pekskärm fungerar inte dell

Men dessa möjligheter innebär också nya risker, till exempel risken för illvilliga aktörer att utge sig för offentliga personer eller begå bedrägerier. Det är därför vi använder den här tekniken för att driva ett specifikt användningsfall – röstchatt.

Med tanke på att detta är toppen av isberget, förvänta dig tillbakadragande mot ChatGPT:s nyfunna röst, särskilt när det finns en förutsägbar ökning av motbjudande rubriker som hävdar att ChatGPT används för att begå bedrägerier och så vidare.

OpenAI gör ChatGPT till Go-To AI-appen

Ju mer OpenAI lägger till användarvänliga funktioner till ChatGPT, desto mer blir det den generativa AI-appen. Som den första att nå utbredd berömmelse under den första generativa AI-boomen, leder ChatGPT fortfarande vägen och är den enda appen som används, trots konkurrens från sådana som Google Bard (och potentiellt Google Gemini) och Anthropics Claude.

Så länge som OpenAI kan fortsätta att lägga till funktioner som gör ChatGPT enklare att använda, kommer det att hålla folk fast och knuffa allt närmare sitt mål om ett verkligt multimodalt AI-verktyg.