PUBLICIDADE
Notícias

OpenAI expande recursos de voz e imagem no ChatGPT

ChatGPT: novas capacidades de voz e imagem inovam a interação com Inteligência Artificial

PUBLICIDADE

A inteligência artificial tem evoluído rapidamente nos últimos anos, e o ChatGPT da OpenAI é um exemplo notável dessa evolução constante. Recentemente, a OpenAI anunciou a implementação de novas capacidades no ChatGPT que o tornam ainda mais versátil e interativo. Agora, o ChatGPT não só pode gerar texto, mas também pode ver, ouvir e falar. Conheça essas novas funcionalidades e como elas estão mudando a forma como interagimos com essa poderosa IA.

Conversas com o ChatGPT

Uma das novidades do ChatGPT atualizado é a capacidade de realizar conversas por voz. Agora, os usuários podem interagir com o ChatGPT de uma maneira mais natural e intuitiva, simplesmente falando com ele. Essa funcionalidade oferece inúmeras possibilidades, desde pedir histórias para contar às crianças antes de dormir até resolver debates à mesa de jantar.

Para começar a usar a conversa por voz, basta acessar as configurações do aplicativo móvel e optar por essa função. Depois, toque no ícone de fone de ouvido na parte superior da tela inicial e escolha uma das cinco vozes disponíveis. O ChatGPT utiliza um novo modelo de texto para fala, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala. Cada uma das vozes foi criada em colaboração com atores de voz profissionais, garantindo uma experiência autêntica.

Essa funcionalidade de voz é uma porta de entrada para aplicações criativas e voltadas para acessibilidade. Por exemplo, o Spotify está usando essa tecnologia para traduzir podcasts para outros idiomas com a voz dos próprios podcasters, ampliando o alcance de suas histórias. No entanto, é importante notar que a OpenAI está ciente dos riscos associados a essas capacidades, como a possibilidade de uso malicioso para imitar figuras públicas ou cometer fraudes. Portanto, eles estão focados em aplicar essa tecnologia de maneira responsável e controlada.

Conversas com imagens

Além da conversa por voz, o ChatGPT agora pode lidar com imagens. Isso significa que os usuários podem enviar uma ou várias imagens para o ChatGPT e discuti-las de forma interativa. As aplicações são diversas, desde solucionar problemas técnicos, como por que sua churrasqueira não está funcionando, até planejar refeições ao verificar os ingredientes disponíveis na geladeira.

Para começar, basta tocar no botão de imagem para capturar ou selecionar uma imagem. Os usuários de iOS e Android devem tocar no botão de adição primeiro. Além disso, o ChatGPT oferece uma ferramenta de desenho para destacar partes específicas da imagem e orientar a conversa. Essa capacidade de compreender imagens é alimentada pelos modelos multimodais GPT-3.5 e GPT-4, que aplicam suas habilidades de raciocínio em linguagem a uma variedade de imagens, incluindo fotografias, capturas de tela e documentos com texto e imagens.

PUBLICIDADE

Implementação gradual

A OpenAI adotou uma abordagem gradual na implementação dessas capacidades avançadas, tanto de voz quanto de imagem. Isso se deve ao compromisso da empresa em construir a inteligência artificial geral (AGI) de forma segura e benéfica. Implementar essas tecnologias de maneira controlada permite que a OpenAI faça melhorias e refine as mitigações de riscos ao longo do tempo, ao mesmo tempo em que prepara os usuários para sistemas mais poderosos no futuro.

Desafios da voz e imagem

A tecnologia de voz traz consigo a capacidade de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real. Isso abre portas para uma série de aplicações criativas e acessíveis, mas também apresenta riscos, como a possibilidade de atores maliciosos se passarem por figuras públicas. Portanto, a OpenAI optou por focar essa tecnologia nas conversas por voz, trabalhando em colaboração com atores de voz profissionais.

Já as capacidades de imagem apresentam desafios próprios, incluindo a possibilidade de interpretação incorreta de imagens em contextos críticos. Antes de lançar amplamente essa funcionalidade, a OpenAI conduziu testes com red teamers para avaliar riscos em áreas como extremismo e proficiência científica, bem como com diversos alpha testers. Essa abordagem cuidadosa visa garantir um uso responsável da tecnologia.

Segurança e privacidade

A OpenAI está comprometida em tornar o ChatGPT uma ferramenta útil e segura para os usuários. Isso inclui a preocupação com a privacidade das pessoas e a conscientização sobre as limitações do modelo. O ChatGPT foi desenvolvido em colaboração com a Be My Eyes, um aplicativo móvel gratuito para pessoas com deficiência visual, para compreender suas necessidades e limitações. A privacidade das pessoas é respeitada, e medidas técnicas foram implementadas para limitar a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas.

Transparência e limitações

A OpenAI é transparente em relação às limitações do modelo e desencoraja o uso em casos de alto risco sem verificação adequada. Além disso, o modelo é mais proficientemente em transcrever textos em inglês, enquanto pode apresentar desempenho inferior em outros idiomas, especialmente aqueles com alfabetos não romanos. Portanto, a empresa aconselha os usuários não-ingleses a usarem o ChatGPT com cautela para fins específicos.

PUBLICIDADE

Thiago Santos

Sou um estudante de Ciências e Tecnologia, apaixonado por inovação e sempre antenado nas últimas tendências tecnológicas. Acredito que o futuro está intrinsecamente ligado ao avanço da ciência, e estou empenhado em contribuir para esse progresso. Além dos estudos, sou um apaixonado por cinema e séries. Nos momentos de lazer, valorizo a companhia dos amigos. Gosto de compartilhar risadas, experiências e construir memórias com aqueles que são importantes para mim. Essa convivência é fundamental para equilibrar minha busca por conhecimento e meu amor pelo entretenimento e tecnologia.

Deixe uma resposta