A OpenAI está introduzindo uma nova ferramenta de áudio capaz de converter texto em fala com uma qualidade extremamente realista, capaz de imitar vozes humanas com precisão. O novo recurso, conhecido como Voice Engine, representa um novo avanço na capacidade da IA de gerar fala que soa quase indistinguível da humana, mas também destaca preocupações crescentes relacionadas à segurança e ao potencial de uso indevido.
O Voice Engine foi introduzido inicialmente a um grupo restrito de cerca de 10 desenvolvedores, uma decisão que reflete a cautela da OpenAI diante dos riscos potenciais que tal tecnologia poderia acarretar. Embora inicialmente planejada para ser disponibilizada a um grupo maior de até 100 desenvolvedores, a empresa optou por limitar o acesso após receber feedback de legisladores, especialistas do setor, educadores e criativos. A preocupação com a geração de discursos que se assemelham às vozes reais é amplificada em contextos como um ano eleitoral, onde o potencial para desinformação e manipulação é particularmente sensível.
A tecnologia do Voice Engine é capaz de criar falas que não apenas replicam a voz de uma pessoa, mas também suas cadências e entonações específicas, necessitando apenas de 15 segundos de áudio gravado dessa pessoa para funcionar, mostra a Bloomberg.
Durante uma demonstração da ferramenta, a qualidade do áudio gerado foi descrita como “basicamente uma voz de calibre humano”, indicando uma realização técnica impressionante. Entretanto, a empresa reconhece a “delicadeza de segurança” que envolve a capacidade de imitar com precisão a fala humana.
Além de levantar questões éticas e de segurança, a OpenAI destaca potenciais aplicações benéficas do Voice Engine. Por exemplo, o Norman Prince Neurosciences Institute, parte do sistema de saúde sem fins lucrativos Lifespan, está utilizando a tecnologia para ajudar pacientes a recuperar suas vozes. Em um caso, a ferramenta foi usada para restaurar a voz de uma jovem paciente que havia perdido a capacidade de falar claramente devido a um tumor cerebral.
Além disso, o modelo de fala personalizado da OpenAI pode traduzir o áudio gerado para diferentes idiomas, tornando-o útil para empresas do ramo de áudio, como a Spotify, que já utilizou a tecnologia para traduzir podcasts.
A OpenAI impôs políticas de uso para os parceiros de teste, incluindo a exigência de consentimento do locutor original e a divulgação de que as vozes ouvidas são geradas por IA. Além disso, a empresa está explorando a implementação de uma marca d’água de áudio inaudível para ajudar a distinguir se um trecho de áudio foi criado pela ferramenta.
A empresa também está buscando feedback de especialistas externos antes de decidir sobre um lançamento mais amplo da tecnologia. Há um esforço consciente para garantir que o público e as instituições estejam preparados para os desafios trazidos por tecnologias de IA avançadas, incluindo a necessidade de reforçar a resiliência social e a educação pública sobre conteúdo enganoso gerado por IA.