A Apple introduziu um modelo de inteligência artificial (IA) para a edição de fotos através de prompts. Denominado MGIE - Edição de Imagem Guiada por Modelo de Linguagem de Grande Escala Multimodal - este modelo de código aberto possibilita que os usuários utilizem linguagem natural para instruir o editor sobre seus objetivos desejados.
Com o MGIE, os usuários têm a capacidade de orientar o editor para realizar alterações específicas, como “intensificar o azul do céu”, e o modelo interpreta essas instruções em ações de edição concretas.
O destaque do MGIE reside em sua habilidade de compreender uma ampla variedade de comandos e executar ajustes complexos, abrangendo desde edições básicas, como cortar, redimensionar e aplicar filtros, até modificações mais avançadas, incluindo a alteração de fundos, adição ou remoção de objetos e a aplicação de efeitos artísticos.
Além das funções tradicionais de edição, a ferramenta da Apple é capaz de aprimorar a qualidade global da imagem ao ajustar elementos como brilho, contraste, nitidez e equilíbrio de cores.
O modelo também possibilita edições focalizadas em regiões ou objetos específicos dentro da imagem, permitindo a personalização de atributos como forma, cor e textura.
Por exemplo, um usuário pode simplesmente dizer “torne o céu mais azul”, e o MGIE interpretará isso como “identificar e selecionar o céu e, em seguida, aumentar a saturação nesta área em 20%”. Caso o resultado não atenda às expectativas do usuário, é possível refinar a solicitação ou desfazer o efeito, fornecendo uma instrução diferente.
O MGIE executa edições comuns no estilo do Photoshop, como cortar, redimensionar, girar, inverter e adicionar filtros. Além disso, o modelo aplica edições mais avançadas, como a troca de fundo, adição ou remoção de objetos e a fusão de imagens.
O modelo é capaz de otimizar a qualidade global de uma foto através de ajustes no brilho, contraste, nitidez e equilíbrio de cores. Adicionalmente, o MGIE aplica efeitos artísticos, como esboço, pintura e desenho animado.
Por fim, o MGIE permite a edição de regiões ou objetos específicos em uma imagem, como rostos, olhos, cabelos, roupas e acessórios, modificando atributos como forma, tamanho, cor, textura e estilo. Atualmente, o MGIE é um modelo de código aberto disponível no Github, e uma demonstração online permite que os usuários carreguem suas próprias imagens e experimentem suas funcionalidades.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 14:48
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…