No atual cenário tecnológico, os gigantes da tecnologia como OpenAI, Google e Meta têm enfrentado desafios na coleta de dados para treinar seus sistemas avançados de Inteligência Artificial (IA). Em busca de alimentar os modelos de IA com dados suficientes, essas empresas adotaram práticas questionáveis, como ignorar políticas corporativas internas, alterar regras e debater a possibilidade de contornar leis de direitos autorais. Este comportamento destaca a urgência e a pressão dentro da indústria para desenvolver sistemas de IA cada vez mais sofisticados.
A OpenAI, conhecida pelo desenvolvimento do GPT-4, uma das versões mais avançadas de seus modelos de linguagem, encontrou-se em um impasse no final de 2021. Após esgotar os reservatórios de texto disponíveis na internet, a organização buscou novas fontes de dados. Uma das soluções encontradas foi a criação da ferramenta Whisper, capaz de transcrever áudios de vídeos do YouTube e gerar textos conversacionais. Tal prática, no entanto, levantou questionamentos internos sobre possíveis violações das políticas do YouTube, propriedade do Google, que proíbe o uso de seus vídeos para aplicações independentes da plataforma.
Google e Meta também têm enfrentado seus próprios dilemas éticos e legais na busca por dados. O Google, por exemplo, ampliou seus termos de serviço para permitir o acesso a documentos do Google Docs e avaliações no Google Maps, visando enriquecer seus produtos de IA. Da mesma forma, a Meta explorou a possibilidade de adquirir a editora Simon & Schuster, discutiu a coleta de dados protegidos por direitos autorais e contratou empreiteiros na África para agregar resumos de conteúdo, muitos dos quais protegidos por direitos autorais.
Essas práticas ilustram como a obtenção de grandes volumes de dados de alta qualidade tornou-se uma necessidade crítica para o avanço da IA. Dados bem-curados, como livros e artigos publicados, são especialmente valiosos, pois permitem que os modelos de IA aprendam a produzir conteúdo que se assemelha ao criado por humanos. A dependência de dados digitais, no entanto, coloca as empresas de tecnologia em uma corrida contra o tempo, consumindo dados mais rapidamente do que são produzidos.
A busca desenfreada por dados levantou questões legais e éticas significativas, com alguns na indústria argumentando que a coleta de dados em grande escala sem licenciamento adequado é uma forma de roubo. Litígios sobre direitos autorais e licenciamento começaram a surgir, como o processo do The New York Times contra a OpenAI e a Microsoft, alegando o uso não autorizado de artigos protegidos por direitos autorais para treinar chatbots de IA.
À medida que a indústria da IA evolui, surgem novas abordagens para mitigar a escassez de dados, incluindo o desenvolvimento de dados “sintéticos” criados por modelos de IA. Esta estratégia pode potencialmente reduzir a dependência de dados protegidos por direitos autorais, embora apresente desafios técnicos significativos.
O cenário atual destaca um momento crítico para a indústria de IA, no qual o desejo de avançar tecnologicamente se choca com as fronteiras da ética, legalidade e sustentabilidade de recursos digitais. Como as empresas continuarão a navegar por esse terreno complexo permanece uma questão em aberto, com implicações significativas para o desenvolvimento futuro da tecnologia de IA e para a sociedade como um todo.