A tecnologia de inteligência artificial (IA) tem se destacado cada vez mais em diversos setores, e a área de edição de imagens não ficou de fora dessa evolução. Recentemente, a Apple lançou um modelo de IA revolucionário, o MGIE, capaz de editar imagens com base em instruções de linguagem natural.
O MGIE, abreviação para MLLM-Guided Image Editing, é um modelo de IA desenvolvido pela Apple em colaboração com pesquisadores da Universidade da Califórnia, em Santa Bárbara. Ele utiliza modelos multimodais de linguagem grande (MLLMs) para interpretar comandos do usuário e realizar manipulações em nível de pixel nas imagens.
Funcionando de maneira intuitiva, o modelo traduz instruções de linguagem natural em ações precisas de edição de imagem. Por exemplo, se o usuário deseja tornar o céu mais azul em uma foto, basta digitar essa instrução, e o MGIE realizará a edição necessária para atender ao pedido.
Capacidades do MGIE
O MGIE não se limita apenas a ajustes simples de cor. Ele é capaz de uma vasta gama de edições, desde modificações básicas até manipulações complexas de objetos. Algumas das suas principais capacidades incluem:
- Edição expressiva baseada em instruções: produz instruções claras e concisas, melhorando não apenas a qualidade das edições, mas também a experiência do usuário.
- Modificação no estilo Photoshop: realiza cortes, redimensionamentos, rotações, inversões e aplicação de filtros, além de edições mais avançadas, como a remoção ou adição de objetos e a mudança de plano de fundo.
- Otimização global e local de fotos: ajusta brilho, contraste, nitidez, equilíbrio de cores e aplica efeitos artísticos. Também é capaz de editar regiões ou objetos específicos em uma imagem, como rostos, olhos, cabelos e roupas.
Como utilizar o MGIE?
O MGIE está disponível como um projeto de código aberto no GitHub, onde os usuários podem encontrar o código, os dados e os modelos pré-treinados. Além disso, há uma demonstração online hospedada no Hugging Face Spaces, permitindo que os interessados experimentem o modelo sem precisar baixar ou instalar nada, mostra o VentureBeat.
Utilizar o MGIE é simples e intuitivo. Basta fornecer instruções em linguagem natural para editar imagens, e o modelo se encarregará de realizar as edições desejadas. Os usuários também podem fornecer feedback para refinar as edições ou solicitar edições diferentes, tornando o processo ainda mais interativo e personalizado.
Importância do MGIE
O MGIE representa um avanço interessante na edição de imagens baseada em instruções. Ele não só demonstra o potencial dos MLLMs na melhoria da edição de imagens, como também abre novas possibilidades para interação e comunicação intermodal.
Além disso, o modelo destaca a crescente capacidade da Apple em pesquisa e desenvolvimento de IA. Como uma das gigantes da tecnologia de consumo, a Apple tem investido cada vez mais em aprendizado de máquina, e o MGIE é uma prova tangível desse esforço.
Embora o MGIE represente um grande avanço, ainda há espaço para melhorias nos sistemas multimodais de IA. No entanto, o ritmo acelerado de progresso nesse domínio sugere que esse tipo de IA assistencial pode se tornar um companheiro criativo indispensável no futuro próximo.