Um recente estudo conduzido por pesquisadores de inteligência artificial trouxe à luz uma descoberta notável no campo da segurança cibernética. Com a crescente dependência de videochamadas por meio de plataformas como o Zoom, os cientistas desenvolveram um método inovador para detectar teclas digitadas durante essas conversas, alcançando uma notável precisão de 93%. Essa pesquisa, que combina elementos de aprendizado de máquina e análise de áudio, levanta questões sobre a privacidade digital e a segurança em nossas atividades online.
Desvendando um Novo Canal de Ataque
Os pesquisadores do Reino Unido, Joshua Harrison, Ehsan Toreini e Marhyam Mehrnezhad, publicaram recentemente um estudo intitulado “Um Ataque Prático de Canal Lateral Acústico Baseado em Aprendizado Profundo em Teclados”. Nesse artigo, eles exploram como a combinação de aprendizado profundo, microfones e chamadas de vídeo representa uma ameaça significativa à segurança dos teclados. A matéria do Ars Technica mostra que os laptops, em especial, estão em risco, uma vez que suas teclas podem ser gravadas em ambientes públicos mais silenciosos, como cafés, bibliotecas e escritórios.
O Processo por Trás da Descoberta
A pesquisa se baseia na gravação de sons emitidos pelas teclas enquanto são pressionadas durante uma videochamada. Ao treinar um modelo de aprendizado profundo com esses perfis sonoros específicos, os pesquisadores alcançaram impressionantes 93% de precisão na identificação das teclas digitadas. Isso significa que, com base apenas nos sons capturados pelo microfone, o modelo pode decifrar com alta precisão as palavras digitadas pelos usuários durante uma chamada.
Resultados Convincentes
Os pesquisadores realizaram testes rigorosos para validar sua descoberta. Usando um MacBook Pro de 2021, eles digitaram 36 teclas, repetindo o processo 25 vezes para cada tecla. Em um teste, eles utilizaram um iPhone 13 mini a 17 cm de distância para capturar o áudio do teclado. Em um segundo teste, eles gravaram as teclas do laptop via Zoom, aproveitando os microfones embutidos do MacBook. Surpreendentemente, em ambos os cenários, o modelo alcançou uma precisão superior a 93%, com o áudio capturado pelo iPhone chegando a impressionantes 95-96%.
Desafios e Implicações
A pesquisa revela que a posição da tecla pressionada influencia seu perfil sonoro, e que erros de classificação tendem a ocorrer em teclas próximas. Isso levanta a possibilidade de um sistema secundário, baseado em aprendizado de máquina, corrigir as teclas incorretas com base em um grande volume de linguagem e na posição estimada da tecla pressionada.
No entanto, a pesquisa também oferece possíveis defesas contra esse tipo de ataque. Mudar o estilo de digitação, utilizar senhas aleatórias com variações de maiúsculas e minúsculas e adicionar teclas falsas geradas aleatoriamente ao áudio transmitido em videochamadas são algumas das sugestões apresentadas no estudo.