GPT-4o: Um novo passo em direção às interações ‘Humano – Máquina’

Publicado por

Vinicius Siqueira

14 de maio de 2024 20:25

Na última segunda-feira (13), a OpenAI anunciou o lançamento do GPT-4o, um novo modelo de inteligência artificial (IA) mais responsivo e barato do que suas versões anteriores. O “o” em seu nome significa “omnidirecional”, referindo-se à capacidade do modelo de lidar com informações de texto, áudio e imagem.

A ferramenta pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano em uma conversa. Ele corresponde ao desempenho do GPT-4 Turbo em texto em inglês e código, com uma melhoria significativa em texto em idiomas não-ingleses, sendo também muito mais rápido e 50% mais barato na API. O GPT-4o é especialmente melhor na compreensão de visão e áudio em comparação com os modelos existentes.

Revolução ChatGPT

Poucos meses após o lançamento público do ChatGPT em 2022 pela OpenAI, 100 milhões de usuários estavam usando regularmente a ferramenta, tornando-a o aplicativo de consumidor de crescimento mais rápido da história. O impacto mercadológico da ferramenta facilmente moldou os próximos passos da indústria de tecnologia e as medidas seguintes das Big Techs.

Nesta semana, os analistas de tráfego da web Similarweb anunciaram que o site do ChatGPT atingiu novos recordes de interesse, com 83,5 milhões de visitas em um único dia em maio. Não é difícil separar um período no mercado da tecnologia “Pré” e “Pós” ChatGPT, com IA sendo uma temática completamente inescapável.

GPT-4o. O que muda na prática?

A atualização liberada gratuitamente para todos os usuários (mas com interações limitadas para não assinante do plano Pro) representa o primeiro modelo da OpenAI como uma capacidade de interação multimidiática e uma compreensão maior de diferentes tipos de conteúdos em relação aos seus antecessores.

O modelo também apresenta uma melhoria significativa em processamento de linguagem natural, adquirindo aspectos quase humanos em suas interações. A seguir reunimos alguns dos usos e diferenças práticas do GPT-4o:

Assistentes Virtuais Multimodais:
- Descrição: O GPT-4o pode atuar como assistente virtual que responde não apenas a comandos de texto, mas também a entradas de áudio e imagem. Por exemplo, ele pode analisar e descrever imagens enviadas por usuários, responder a perguntas baseadas em conteúdo visual, e entender comandos de voz de maneira eficiente.
- Aplicação: Empresas podem utilizar essa tecnologia para desenvolver assistentes mais versáteis e responsivos, melhorando o atendimento ao cliente em serviços como suporte técnico e consultas médicas online.
Tradução e Interpretação em Tempo Real:
- Descrição: A capacidade do GPT-4o de interpretar e traduzir conversas em tempo real é uma melhoria significativa. Ele pode servir como intérprete em reuniões multilíngues ou ajudar viajantes a se comunicarem em países estrangeiros.
- Aplicação: Plataformas de videoconferência e aplicativos de viagem podem integrar essa funcionalidade para oferecer traduções instantâneas e precisas, facilitando a comunicação entre pessoas de diferentes idiomas.
Educação e Treinamento Personalizado:
- Descrição: GPT-4o pode atuar como tutor virtual, oferecendo respostas instantâneas e detalhadas a perguntas acadêmicas, além de realizar leituras dramáticas ou explicações em áudio para diversos tópicos.
- Aplicação: Instituições educacionais podem incorporar GPT-4o em suas plataformas de e-learning para fornecer suporte adicional a alunos, ajudando-os a compreender melhor o material de estudo através de explicações detalhadas e interativas.
Criação e Edição de Conteúdos Multimídia:
- Descrição: Com habilidades avançadas de compreensão e geração de texto, áudio e imagem, o GPT-4o pode ajudar na criação de conteúdos para mídias sociais, blogs, podcasts e vídeos, automatizando a geração de scripts, transcrições e edições básicas.
- Aplicação: Criadores de conteúdo e agências de marketing podem usar GPT-4o para aumentar a produtividade, permitindo a criação rápida e eficiente de materiais de alta qualidade.

Principais Diferenças em Relação aos Modelos Anteriores

Velocidade de Resposta:
- GPT-4o: Responde a entradas de áudio em até 232 milissegundos, com uma média de 320 milissegundos, aproximando-se do tempo de resposta humano em conversas.
- Modelos Anteriores: Tinham maiores latências, especialmente em respostas de áudio, tornando a interação menos fluida e natural.
Compreensão Multimodal:
- GPT-4o: Integra capacidades avançadas de processamento de áudio e visão, permitindo uma interação mais rica e contextual.
- Modelos Anteriores: Eram predominantemente baseados em texto, com limitações significativas em termos de interpretação e resposta a entradas visuais e auditivas.
Eficiência e Custo:
- GPT-4o: É 50% mais barato na API em comparação com o GPT-4 Turbo, tornando-se uma opção mais acessível para empresas e desenvolvedores.
- Modelos Anteriores: Custos mais elevados, o que podia limitar a adoção em larga escala por pequenos negócios e startups.
Desempenho em Idiomas Não-Ingleses:
- GPT-4o: Apresenta melhorias substanciais no processamento e geração de texto em idiomas não-ingleses, ampliando seu uso global.
- Modelos Anteriores: Tinham desempenho inferior em idiomas não-ingleses, com precisão e fluência variáveis.
Interatividade e Facilidade de Uso:
- GPT-4o: Oferece uma interface de voz muito mais ágil e intuitiva, superando a experiência de usuário dos modelos anteriores.
- Modelos Anteriores: A interface de voz era considerada lenta e desajeitada, o que limitava sua utilidade prática.

A OpenAI também divulgou um vídeo em que o ChatGPT está avaliando a roupa do usuário para uma entrevista de emprego e um em que a ferramenta compõe música sozinha:

O uso por comando de voz da ferramenta ainda será liberado ao longo das próximas semanas, além de que também serão explorados recursos de vídeo em um momento futuro. Também está disponível para download um aplicativo da ferramenta para IOS e Android.

Leia também:

Google I/O 2024: Mais uma vez, a IA será o centro das atenções

Este post foi modificado pela última vez em %s = human-readable time difference 20:25

Vinicius Siqueira