O Gemini 1.0 foi anunciado durante a I/O 2023 em maio, hoje o Google revelou o tão aguardado modelo de IA. Disponível agora através da plataforma Bard, o modelo de IA é aclamado como o “modelo mais capaz e geral” do Google, capaz de compreender e operar em diferentes modalidades, como texto, código, áudio, imagens e vídeo.
Ao contrário das abordagens anteriores que exigiam a criação de componentes separados para cada modalidade, o Gemini 1.0 adota uma abordagem inovadora. Ele é pré-treinado desde o início em diversas modalidades usando TPU 4 e TPU v5e, proporcionando uma compreensão mais profunda, raciocínio avançado e habilidades de codificação.
Destacando sua sofisticada capacidade de raciocínio, o Google demonstrou a IA processando 200.000 artigos científicos em uma hora, filtrando os relevantes e resumindo os dados. Além disso, sua habilidade em entender, explicar e gerar código de alta qualidade em Python, Java, C++ e Go destaca sua versatilidade.
O Modelo é oferecido em três tamanhos distintos, desde data centers até smartphones:
- Gemini Ultra: O maior e mais capaz modelo para tarefas altamente complexas.
- Gemini Pro: O melhor modelo para escalar uma ampla gama de tarefas.
- Gemini Nano: O modelo mais eficiente para tarefas em dispositivos.
Desempenho e benchmarking do Gemini 1.0
Em postagem no site, o Google mostra que nos testes de desempenho, a versão Ultra superou o GPT-4 em benchmarks baseados em texto, medindo raciocínio, matemática e código. O destaque vai para a conquista do Gemini Ultra como o “primeiro modelo a superar especialistas humanos em MMLU (compreensão linguística multitarefa massiva)” atingindo 90.0%.
Nos testes multimodais, o Gemini Ultra superou o GPT-4V em imagens, vídeos e áudio. Os benchmarks destacam a capacidade nativa multimodal do modelo, evidenciando seus sinais precoces de habilidades de raciocínio mais complexas.
Quanto à segurança, o Google assegura que a IA passou pelas “mais abrangentes avaliações de segurança de qualquer modelo de IA do Google até o momento,” implementando novas proteções para lidar com suas capacidades multimodais, com foco específico na neutralização de viés e toxicidade.
Bard com Gemini Pro
A introdução do Gemini 1.0 é acompanhada pela oferta inicial do “Bard com Gemini Pro.” Essa versão especialmente ajustada destaca-se por oferecer raciocínio, planejamento e redação mais avançados, além de compreensão e sumarização de conteúdo. O Google enfatiza seu desempenho, superando o GPT 3.5 em seis dos oito benchmarks, incluindo MMLU e GSM8K.
Em avaliações cegas com avaliadores de terceiros, o Bard agora é o chatbot gratuito mais preferido em comparação com as principais alternativas.
O Bard com Gemini Pro está sendo lançado em inglês para 170 países/territórios, com disponibilidade no Reino Unido e Europa “em breve.” Inicialmente, o modelo de linguagem impulsionará prompts baseados em texto, com suporte para “outras modalidades em breve.”
O futuro nos dispositivos Android
O poderoso processador Tensor 3 do Google parece ser o único capaz de executar a sua versão nano no momento. No entanto, o Google está trabalhando para incorporar o Nano ao Android como um todo, lançando o serviço de sistema AICore. Desenvolvedores podem aproveitar este serviço para integrar recursos da linguagem em seus aplicativos, abrindo as portas para uma revolução nos dispositivos Android de última geração.
Embora a integração total ainda exija chips de última geração, a visão de dispositivos Android alimentados pelo Gemini Nano parece promissora.