OpenAI expande recursos de voz e imagem no ChatGPT

A inteligência artificial tem evoluído rapidamente nos últimos anos, e o ChatGPT da OpenAI é um exemplo notável dessa evolução constante. Recentemente, a OpenAI anunciou a implementação de novas capacidades no ChatGPT que o tornam ainda mais versátil e interativo. Agora, o ChatGPT não só pode gerar texto, mas também pode ver, ouvir e falar. Conheça essas novas funcionalidades e como elas estão mudando a forma como interagimos com essa poderosa IA.

Conversas com o ChatGPT

Uma das novidades do ChatGPT atualizado é a capacidade de realizar conversas por voz. Agora, os usuários podem interagir com o ChatGPT de uma maneira mais natural e intuitiva, simplesmente falando com ele. Essa funcionalidade oferece inúmeras possibilidades, desde pedir histórias para contar às crianças antes de dormir até resolver debates à mesa de jantar.

Para começar a usar a conversa por voz, basta acessar as configurações do aplicativo móvel e optar por essa função. Depois, toque no ícone de fone de ouvido na parte superior da tela inicial e escolha uma das cinco vozes disponíveis. O ChatGPT utiliza um novo modelo de texto para fala, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala. Cada uma das vozes foi criada em colaboração com atores de voz profissionais, garantindo uma experiência autêntica.

Essa funcionalidade de voz é uma porta de entrada para aplicações criativas e voltadas para acessibilidade. Por exemplo, o Spotify está usando essa tecnologia para traduzir podcasts para outros idiomas com a voz dos próprios podcasters, ampliando o alcance de suas histórias. No entanto, é importante notar que a OpenAI está ciente dos riscos associados a essas capacidades, como a possibilidade de uso malicioso para imitar figuras públicas ou cometer fraudes. Portanto, eles estão focados em aplicar essa tecnologia de maneira responsável e controlada.

Conversas com imagens

Além da conversa por voz, o ChatGPT agora pode lidar com imagens. Isso significa que os usuários podem enviar uma ou várias imagens para o ChatGPT e discuti-las de forma interativa. As aplicações são diversas, desde solucionar problemas técnicos, como por que sua churrasqueira não está funcionando, até planejar refeições ao verificar os ingredientes disponíveis na geladeira.

Para começar, basta tocar no botão de imagem para capturar ou selecionar uma imagem. Os usuários de iOS e Android devem tocar no botão de adição primeiro. Além disso, o ChatGPT oferece uma ferramenta de desenho para destacar partes específicas da imagem e orientar a conversa. Essa capacidade de compreender imagens é alimentada pelos modelos multimodais GPT-3.5 e GPT-4, que aplicam suas habilidades de raciocínio em linguagem a uma variedade de imagens, incluindo fotografias, capturas de tela e documentos com texto e imagens.

Implementação gradual

A OpenAI adotou uma abordagem gradual na implementação dessas capacidades avançadas, tanto de voz quanto de imagem. Isso se deve ao compromisso da empresa em construir a inteligência artificial geral (AGI) de forma segura e benéfica. Implementar essas tecnologias de maneira controlada permite que a OpenAI faça melhorias e refine as mitigações de riscos ao longo do tempo, ao mesmo tempo em que prepara os usuários para sistemas mais poderosos no futuro.

Desafios da voz e imagem

A tecnologia de voz traz consigo a capacidade de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real. Isso abre portas para uma série de aplicações criativas e acessíveis, mas também apresenta riscos, como a possibilidade de atores maliciosos se passarem por figuras públicas. Portanto, a OpenAI optou por focar essa tecnologia nas conversas por voz, trabalhando em colaboração com atores de voz profissionais.

Já as capacidades de imagem apresentam desafios próprios, incluindo a possibilidade de interpretação incorreta de imagens em contextos críticos. Antes de lançar amplamente essa funcionalidade, a OpenAI conduziu testes com red teamers para avaliar riscos em áreas como extremismo e proficiência científica, bem como com diversos alpha testers. Essa abordagem cuidadosa visa garantir um uso responsável da tecnologia.

Segurança e privacidade

A OpenAI está comprometida em tornar o ChatGPT uma ferramenta útil e segura para os usuários. Isso inclui a preocupação com a privacidade das pessoas e a conscientização sobre as limitações do modelo. O ChatGPT foi desenvolvido em colaboração com a Be My Eyes, um aplicativo móvel gratuito para pessoas com deficiência visual, para compreender suas necessidades e limitações. A privacidade das pessoas é respeitada, e medidas técnicas foram implementadas para limitar a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas.

Transparência e limitações

A OpenAI é transparente em relação às limitações do modelo e desencoraja o uso em casos de alto risco sem verificação adequada. Além disso, o modelo é mais proficientemente em transcrever textos em inglês, enquanto pode apresentar desempenho inferior em outros idiomas, especialmente aqueles com alfabetos não romanos. Portanto, a empresa aconselha os usuários não-ingleses a usarem o ChatGPT com cautela para fins específicos.

Relacionado

Thiago Santos 25 de setembro de 2023Última Atualização 25 de setembro de 2023

2 3 minutos de leitura