OpenAI kanske arbetar med en AI-byggnadsfunktion för abonnenter på ChatGPT
Bildkrediter: Unsplash

GPT-4o: Ett nytt steg mot interaktioner mellan människor och maskin

I måndags (13:e), den OpenAI meddelade lanseringen av GPT-4o, en ny modell av artificiell intelligens (AI) mer lyhörd och billigare än sina tidigare versioner. "O" i dess namn står för "rundstrålande", och hänvisar till modellens förmåga att hantera text-, ljud- och bildinformation.

REKLAM

Verktyget kan svara på ljudinmatning på bara 232 millisekunder, med ett genomsnitt på 320 millisekunder, vilket liknar mänsklig svarstid i en konversation. Den matchar prestandan hos GPT-4 Turbo på engelsk text och kod, med en avsevärd förbättring på icke-engelskspråkig text, samtidigt som den är mycket snabbare och 50 % billigare på API:et. GPT-4o är särskilt bättre på att förstå syn och ljud jämfört med befintliga modeller.

Rotation ChatGPT

Några månader efter den offentliga lanseringen av ChatGPT år 2022 av OpenAI, använde 100 miljoner användare regelbundet verktyget, vilket gör det till den snabbast växande konsumentappen i historien. Verktygets marknadsföringseffekt formade lätt nästa steg inom teknikindustrin och nästa steg som Big Techs tog.

Denna vecka meddelade webbtrafikanalytiker Similarweb att ChatGPT nådde nya rekord av intresse, med 83,5 miljoner besök på en enda dag i maj. Det är inte svårt att skilja en period på teknikmarknaden "Pre" och "Post". ChatGPT, med AI som ett helt ofrånkomligt tema.

REKLAM

GPT-4o. Vad förändras i praktiken?

Uppdateringen som släpps gratis för alla användare (men med begränsad interaktion för prenumeranter som inte är proffsiga) representerar den första modellen av OpenAI såsom en förmåga till multimediainteraktion och en större förståelse för olika typer av innehåll i förhållande till dess föregångare.

Modellen presenterar också en betydande förbättring av naturlig språkbehandling, och får nästan mänskliga aspekter i dess interaktioner. Nedan samlar vi några av användningarna och praktiska skillnaderna med GPT-4o:

  1. Multimodala virtuella assistenter:
    • Beskrivning: GPT-4o kan fungera som en virtuell assistent som inte bara svarar på textkommandon utan även på ljud- och bildinmatningar. Till exempel kan den analysera och beskriva bilder som laddats upp av användare, svara på frågor baserade på visuellt innehåll och förstå röstkommandon effektivt.
    • Tillämpning: Företag kan använda denna teknik för att utveckla mer mångsidiga och lyhörda assistenter, förbättra kundservicen inom tjänster som teknisk support och medicinska konsultationer online.
  2. Översättning och tolkning i realtid:
    • Beskrivning: GPT-4os förmåga att tolka och översätta konversationer i realtid är en betydande förbättring. Han kan fungera som tolk vid flerspråkiga möten eller hjälpa resenärer att kommunicera i främmande länder.
    • Applikation: Videokonferensplattformar och reseappar kan integrera denna funktion för att erbjuda omedelbara och korrekta översättningar, vilket underlättar kommunikationen mellan människor på olika språk.
  3. Personlig utbildning och träning:
    • Beskrivning: GPT-4o kan fungera som en virtuell handledare, erbjuda omedelbara och detaljerade svar på akademiska frågor, samt utföra dramatiska läsningar eller ljudförklaringar för olika ämnen.
    • Tillämpning: Utbildningsinstitutioner kan införliva GPT-4o i sina e-lärande plattformar för att ge ytterligare stöd till studenter, hjälpa dem att bättre förstå studiematerial genom detaljerade och interaktiva förklaringar.
  4. Skapa och redigera multimediainnehåll:
    • Beskrivning: Med avancerade förmågor att förstå och generera text, ljud och bilder kan GPT-4o hjälpa till att skapa innehåll för sociala medier, bloggar, podcaster och videor, automatisera genereringen av skript, transkriptioner och grundläggande redigeringar.
    • Tillämpning: Innehållsskapare och marknadsföringsbyråer kan använda GPT-4o för att öka produktiviteten genom att möjliggöra snabbt och effektivt skapande av material av hög kvalitet.

Huvudsakliga skillnader jämfört med tidigare modeller

  1. Svarshastighet:
    • GPT-4o: Svarar på ljudingångar på upp till 232 millisekunder, med ett genomsnitt på 320 millisekunder, närmar sig mänsklig svarstid i konversationer.
    • Tidigare modeller: De hade högre latenser, särskilt i ljudsvar, vilket gjorde interaktionen mindre flytande och naturlig.
  2. Multimodal förståelse:
    • GPT-4o: Integrerar avancerad ljud- och bildbehandlingskapacitet, vilket möjliggör rikare och mer kontextuell interaktion.
    • Tidigare modeller: Var övervägande textbaserade, med betydande begränsningar när det gällde att tolka och svara på visuella och auditiva input.
  3. Effektivitet och kostnad:
    • GPT-4o: Det är 50 % billigare på API jämfört med GPT-4 Turbo, vilket gör det till ett mer prisvärt alternativ för företag och utvecklare.
    • Tidigare modeller: Högre kostnader, vilket kan begränsa storskalig användning av småföretag och nystartade företag.
  4. Prestanda på icke-engelska språk:
    • GPT-4o: Presenterar betydande förbättringar i textbehandling och generering på icke-engelska språk, vilket utökar dess globala användning.
    • Tidigare modeller: Presterade dåligt på icke-engelska språk, med varierande noggrannhet och flyt.
  5. Interaktivitet och användarvänlighet:
    • GPT-4o: Erbjuder ett mycket smidigare och intuitivare röstgränssnitt som överträffar användarupplevelsen från tidigare modeller.
    • Tidigare modeller: Röstgränssnittet ansågs långsamt och klumpigt, vilket begränsade dess praktiska användbarhet.

A OpenAI släppte också en video där ChatGPT utvärderar användarens outfit för en anställningsintervju och en där verktyget komponerar musik enbart:

REKLAM

Röstkommandoanvändning av verktyget kommer att släppas under de närmaste veckorna, och videoresurser kommer också att utforskas i framtiden. En applikation av verktyget för IOS och Android finns också tillgänglig för nedladdning.

Läs också:

Lämna en kommentar

O seu endereço e não será Publicado. Campos obrigatórios são marcados com *

skrolla upp