Os avanços na área da robótica têm sido cada vez mais impressionantes. A capacidade dos robôs de adaptar-se e aprender é um objetivo antigo na indústria, uma vez que é fundamental que esses sistemas possam lidar com ambientes imprevisíveis. Diante dessa necessidade, pesquisadores têm explorado diferentes soluções, e uma delas se destaca: a utilização de vídeos.
Recentemente, um algoritmo desenvolvido pela Universidade Carnegie Mellon (CMU) chamado WHIRL (em inglês, in-the-Wild Human Imitating Robot Learning) chamou a atenção nesse campo. Esse algoritmo tem como objetivo treinar sistemas robóticos através da observação de gravações de humanos executando tarefas específicas.
Agora, o professor assistente do Instituto de Robótica da CMU, Deepak Pathak, apresenta o VRB (Vision-Robotics Bridge), uma evolução do WHIRL. Essa nova versão do sistema, assim como seu predecessor, utiliza vídeos de humanos realizando tarefas como demonstração, porém com uma grande inovação: não é mais necessário que o robô execute a tarefa em um ambiente idêntico ao qual ele irá operar.
De acordo com Shikhar Bahl, estudante de doutorado da CMU, o robô pode ser levado para diferentes locais no campus e realizar diversas tarefas. Isso permite que o robô explore o mundo ao seu redor de forma mais direta e interativa, ao invés de apenas mover os braços de forma aleatória.
No processo de aprendizado, o robô observa algumas informações-chave presentes nos vídeos, como os pontos de contato e a trajetória. Por exemplo, ao assistir a vídeos de humanos abrindo gavetas, o robô é capaz de determinar a melhor maneira de abrir qualquer gaveta, identificando o ponto de contato (a alça) e a trajetória de abertura.
No entanto, é importante destacar que nem todas as gavetas se comportam da mesma maneira. Por isso, para melhorar os resultados, é necessário criar conjuntos de dados maiores para o treinamento. A CMU está utilizando vídeos de bancos de dados como o Epic Kitchens e o Ego4D, que oferecem uma vasta quantidade de gravações de atividades diárias em diferentes partes do mundo, totalizando quase 4.000 horas de conteúdo.
Shikhar Bahl ressalta que existe um enorme arquivo de dados disponíveis para treinamento. Segundo o pesquisador, ao utilizar esses conjuntos de dados de maneira inovadora, é possível permitir que os robôs aprendam com a enorme quantidade de vídeos disponíveis na internet e no YouTube.
Essa evolução na área de aprendizado robótico traz uma série de possibilidades e benefícios. Com os robôs sendo capazes de aprender tarefas por meio da observação de vídeos, abre-se um vasto campo de aplicações. Desde a realização de tarefas domésticas até a execução de atividades complexas em ambientes industriais, os robôs podem se beneficiar do aprendizado proporcionado pelo acesso a uma grande variedade de vídeos disponíveis online.