A OpenAI anunciou o lançamento de uma inovação no campo da inteligência artificial: o GPT-4o. Este novo modelo promete melhorar a interação humano-computador ao possibilitar uma comunicação quase humana, combinando texto, áudio e imagens de maneira integrada e responsiva. O GPT-4o, também conhecido como “omni” devido às suas capacidades multimodais, representa um salto em relação aos modelos anteriores, como o GPT-3.5 e o GPT-4.
O GPT-4o distingue-se dos seus predecessores por ser treinado não só em texto, mas também em visão e áudio. Isso significa que pode processar e responder a qualquer combinação desses elementos sem a necessidade de converter áudio em texto, como era comum anteriormente. Esta capacidade integrada permite que o modelo reconheça emoções, interrompa suas respostas para proporcionar uma interação mais natural e responda com uma velocidade comparável à das conversas humanas.
Durante a apresentação do novo modelo, a OpenAI demonstrou suas impressionantes capacidades com várias demonstrações práticas. O GPT-4o foi visto traduzindo conversas ao vivo entre inglês e italiano, auxiliando na resolução de equações lineares e até orientando exercícios de respiração profunda através da análise do som da respiração.
Melhorias de desempenho e segurança
Além de suas capacidades avançadas, o GPT-4o também chama a atenção por sua eficiência e acessibilidade. Mira Murati, CTO da OpenAI, destacou durante o evento que o modelo oferece a inteligência de nível GPT-4 para todos os usuários, incluindo aqueles que utilizam a versão gratuita. Este modelo é consideravelmente mais rápido e custa 50% menos para operar via API em comparação com o GPT-4.
Consciente das preocupações de segurança que acompanham os avanços em IA, a OpenAI implementou rigorosas medidas de segurança no GPT-4o. O modelo foi avaliado em diversas categorias de risco sem exceder o nível “Médio” em qualquer uma delas. Além disso, uma equipe externa de mais de 70 especialistas de várias áreas, como psicologia social e desinformação, participou na análise dos riscos introduzidos ou amplificados pelas novas capacidades do modelo.
Disponibilização do GPT-4o
O lançamento do GPT-4o ocorre um dia antes da conferência anual de desenvolvedores do Google, o Google I/O, onde se espera que anúncios similares sejam feitos. A capacidade do GPT-4o de integrar áudio, texto e imagem em uma única plataforma eleva substancialmente o padrão para o que os modelos de IA podem realizar e como eles podem ser aplicados em diversas indústrias, desde a educação até a assistência médica.
A OpenAI planeja disponibilizar o GPT-4o para todos os usuários nas próximas semanas, com uma versão para desktop do ChatGPT sendo lançada inicialmente para Mac. A empresa também anunciou que estenderá os limites de mensagens para usuários do nível gratuito e Plus, evidenciando um compromisso em tornar a tecnologia de IA avançada acessível a um público mais amplo.
O lançamento da OpenAI coloca ela um passo à frente na corrida tecnológica contra gigantes como o Google, que também está explorando tecnologias similares com o seu chatbot Gemini. A capacidade do GPT-4o de interagir em múltiplas modalidades em tempo real melhora a experiência do usuário e abre novas possibilidades para aplicações práticas em educação, assistência médica, entretenimento e mais.