OpenAI vai desafiar Gemini do Google com Gobi, IA multimodal para imagens, texto e som

A OpenAI tem planos para desenvolver um novo modelo multimodal chamado Gobi. Gobi é um modelo de linguagem grande (LLM) que foi projetado e treinado desde o início para entender e operar com várias modalidades, incluindo texto, imagens e som.

O desenvolvimento de Gobi é um marco significativo no campo da IA multimodal, e o objetivo da empresa com a IA é competir com Gemini, do Google, que já é adotado para testes por empresas. A informação da projeção do Gobi foi publicada inicialmente pelo The Information

PUBLICIDADE

A capacidade de um modelo de IA de entender e processar informações de várias fontes tem o potencial de revolucionar a forma como interagimos com a tecnologia. Por exemplo, Gobi poderia ser usado para criar assistentes virtuais mais inteligentes, sistemas de tradução mais precisos e até mesmo robôs que podem entender e responder ao mundo ao seu redor.

O treinamento de Gobi ainda não começou, mas a OpenAI espera lançá-lo no futuro próximo. Detalhes sobre o poder do novo trunfo da empresa também não foram divulgados.

Veja também:

Rolar para cima