O Google I/O acabou de terminar — e foi repleto de anúncios de inteligência artificial (IA). Como esperado, o evento focou fortemente nos modelos de IA Gemini do Google, juntamente com as maneiras como estão sendo integrados em aplicativos como Workspace e Chrome.
Para quem não conseguiu acompanhar o evento ao vivo e seus principais lançamentos, reunimos os maiores anúncios apresentados pela Google durante a transmissão.
O Google Lens já permite que você faça buscas com base em imagens, mas agora o Google está dando um passo adiante com a capacidade de buscar por meio de vídeos. Isso significa que você pode gravar um vídeo de algo que deseja pesquisar, fazer uma pergunta durante o vídeo, e a IA do Google tentará trazer respostas relevantes da web.
O Google está lançando um novo recurso neste verão que pode ser um grande auxílio para qualquer pessoa com anos — ou até mais de uma década — de fotos para organizar. O “Ask Photos” permite que o Gemini analise sua biblioteca do Google Fotos em resposta às suas perguntas. O recurso vai além de apenas encontrar fotos de cães e gatos. O CEO Sundar Pichai demonstrou perguntando ao Gemini qual era o número da sua placa de carro. A resposta foi o próprio número, seguido de uma foto para ele confirmar.
O Google introduziu um novo modelo de IA: Gemini 1.5 Flash. Este novo modelo multimodal é tão poderoso quanto o Gemini 1.5 Pro, mas é otimizado para “tarefas estreitas, de alta frequência e baixa latência”. Isso o torna melhor em gerar respostas rápidas. O Google também fez algumas alterações no Gemini 1.5 que melhorarão sua capacidade de traduzir, raciocinar e codificar. Além disso, o Google dobrou a janela de contexto do Gemini 1.5 Pro de 1 milhão para 2 milhões de tokens.
O Google está integrando seu mais recente modelo de linguagem mainstream, Gemini 1.5 Pro, na barra lateral do Docs, Sheets, Slides, Drive e Gmail. Quando for lançado para assinantes pagos no próximo mês, ele se transformará em um assistente mais geral dentro do Workspace, capaz de buscar informações de qualquer conteúdo no seu Drive, não importa onde você esteja. Ele também poderá realizar tarefas como escrever emails incorporando informações de um documento que você está visualizando ou lembrá-lo de responder a um email mais tarde. Alguns testadores iniciais já têm acesso a esses recursos, mas o Google diz que será lançado para todos os assinantes pagos do Gemini no próximo mês.
O Project Astra do Google é um assistente de IA multimodal que a empresa espera que se torne um assistente virtual capaz de fazer tudo, podendo assistir e entender o que vê através da câmera do seu dispositivo, lembrar onde estão suas coisas e realizar tarefas por você. Ele está alimentando muitas das demonstrações mais impressionantes do I/O deste ano, e a meta da empresa é ser um agente de IA que não só pode conversar com você, mas também realmente fazer coisas em seu nome.
A resposta do Google ao Sora da OpenAI é um novo modelo de IA generativa que pode produzir vídeos em 1080p com base em prompts de texto, imagem e vídeo. Os vídeos podem ser produzidos em uma variedade de estilos, como tomadas aéreas ou timelapses, e podem ser ajustados com mais prompts. A empresa já está oferecendo o Veo para alguns criadores usarem em vídeos do YouTube, mas também está apresentando-o para Hollywood usar em filmes.
O Google está lançando um criador de chatbots personalizados chamado Gems. Assim como os GPTs da OpenAI, o Gems permite que os usuários dêem instruções ao Gemini para personalizar como ele responderá e em que se especializa. Se você quiser que ele seja um treinador de corrida positivo e insistente, com motivações diárias e planos de corrida, você poderá fazer isso em breve (se for um assinante do Gemini Advanced).
O novo recurso Gemini Live visa tornar os chats de voz com o Gemini mais naturais. A voz do chatbot será atualizada com um pouco mais de personalidade, e os usuários poderão interrompê-lo no meio da frase ou pedir para ele assistir através da câmera do smartphone e dar informações em tempo real sobre o que vê. O Gemini também está recebendo novas integrações que permitem que ele atualize ou extraia informações do Google Calendar, Tasks e Keep, usando recursos multimodais para isso (como adicionar detalhes de um folheto ao seu calendário pessoal).
Se você estiver em um telefone ou tablet Android, agora pode circular um problema matemático na tela e obter ajuda para resolvê-lo. A IA do Google não resolverá o problema para você — então não ajudará os alunos a trapacearem nos deveres de casa — mas dividirá o problema em etapas que devem facilitar a conclusão.
O Google lançará “AI Overviews” — anteriormente conhecido como “Search Generative Experience” — para todos nos EUA nesta semana. Agora, um modelo Gemini “especializado” projetará e preencherá as páginas de resultados com respostas resumidas da web (semelhante ao que você vê em ferramentas de busca de IA como Perplexity ou Arc Search).
O Google diz que o Gemini em breve permitirá que os usuários façam perguntas sobre vídeos na tela e ele responderá com base em legendas automáticas. Para usuários pagos do Gemini Advanced, ele também poderá ingerir PDFs e oferecer informações. Essas e outras atualizações multimodais para o Gemini no Android estão chegando nos próximos meses.
O Google anunciou que está adicionando o Gemini Nano, a versão leve do seu modelo Gemini, ao Chrome no desktop. O assistente integrado usará IA no dispositivo para ajudar a gerar texto para postagens em redes sociais, avaliações de produtos e mais, diretamente dentro do Google Chrome.
O Google diz que está expandindo o que o SynthID pode fazer — a empresa afirma que incorporará marcas d’água em conteúdos criados com seu novo gerador de vídeos Veo e que agora também pode detectar vídeos gerados por IA.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 18:45
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…
A Nvidia acaba de apresentar o Jetson Orin Nano Super Developer Kit, um supercomputador de…
A OpenAI acabou de lançar uma série de atualizações para desenvolvedores no 9º dia do…