A Stability AI, conhecida pelo seu gerador de arte baseado em inteligência artificial Stable Diffusion, anunciou o lançamento de um modelo aberto de IA para geração de sons e músicas, denominado Stable Audio Open. A empresa afirma que o novo modelo foi treinado exclusivamente com gravações isentas de royalties, ampliando as possibilidades para criadores de conteúdo e músicos.
O Stable Audio Open é um modelo generativo que transforma descrições textuais em gravações de áudio de até 47 segundos. A descrição pode variar desde “Batida de rock tocada em um estúdio tratado, sessão de bateria em um kit acústico” até outros cenários específicos. O treinamento do modelo utilizou cerca de 486.000 amostras das bibliotecas de música gratuitas FreeSound e Free Music Archive.
Stability AI destaca que o modelo pode ser usado para criar batidas de bateria, riffs de instrumentos, ruídos ambientais e “elementos de produção” para vídeos, filmes e programas de TV. Além disso, ele permite “editar” músicas existentes ou aplicar o estilo de uma música a outra, como usar um estilo de jazz suave em uma nova criação.
Um dos principais benefícios do Stable Audio Open é a capacidade de ajuste personalizado. Stability AI enfatiza que os usuários podem refinar o modelo com seus próprios dados de áudio. Por exemplo, um baterista pode usar samples de suas próprias gravações para gerar novas batidas personalizadas. Este recurso de personalização destaca a flexibilidade do modelo e sua aplicabilidade para músicos e designers de som que buscam uma abordagem mais individualizada em suas criações.
Limitações e restrições
Apesar dos avanços, o Stable Audio Open possui algumas limitações. Ele não é capaz de produzir músicas completas, melodias ou vocais com alta qualidade. A empresa admite que o modelo não foi otimizado para esses fins e sugere que usuários que necessitam dessas funcionalidades considerem o serviço premium da Stability AI. Além disso, o Stable Audio Open não pode ser usado comercialmente, conforme estipulado nos termos de serviço.
Outro ponto importante é que o modelo apresenta um desempenho variável em diferentes estilos e culturas musicais, bem como com descrições em idiomas que não sejam o inglês. A Stability AI atribui esses vieses à diversidade limitada dos dados de treinamento, reconhecendo que algumas culturas podem estar sub-representadas no conjunto de dados utilizado.
Repercussões e direitos autorais
A Stability AI tem enfrentado alguns desafios nos últimos tempos, incluindo a saída do vice-presidente de áudio generativo, Ed Newton-Rex, que discordou da posição da empresa sobre o uso de obras protegidas por direitos autorais para treinamento de modelos de IA. Este lançamento do Stable Audio Open parece ser uma tentativa da empresa de alterar a narrativa em torno de suas práticas, promovendo ao mesmo tempo seus produtos pagos.
À medida que a popularidade dos geradores de música baseados em IA cresce, a questão dos direitos autorais torna-se cada vez mais central. Em maio deste ano, a Sony Music, representando artistas como Billy Joel, Doja Cat e Lil Nas X, enviou uma carta a 700 empresas de IA, alertando contra o uso não autorizado de seu conteúdo para treinamento de geradores de áudio. Em março, o Tennessee sancionou a primeira lei dos EUA destinada a reprimir os abusos da IA na música.