O Google colocou seu modelo de IA (Gemini 1.5 Pro) em robôs para melhorar navegação e execução de tarefas em seus escritórios
Além do vai e vem de pessoas, a correria nos escritórios do Google tem tráfego de robôs. É que a big tech tem usado o Gemini 1.5, seu modelo de inteligência artificial (IA), para deixar os robôs mais espertos para andar pelo escritório e executar tarefas.
A equipe de robótica da DeepMind explicou, num novo artigo científico publicado na quarta-feira (10), como o uso da janela larga de contexto do Gemini 1.5 Pro permite que usuários interajam mais facilmente com seus robôs RT-2.
Neste caso, a janela de contexto dita quantas informações um modelo de IA consegue processar. E as interações ficaram mais fáceis porque os usuários puderam dar instruções aos robôs usando linguagem natural – isto é, falando como se estivesse se dirigindo a uma pessoa.
Confira abaixo os principais pontos do artigo:
- Implementação de IA em robôs: A janela ampla de contexto suportada pelo Gemini 1.5 Pro permite que robôs como o RT-2 interajam com usuários, entendendo linguagem natural, e o ambiente ao seu redor;
- Treinamento e interação: Os robôs são treinados “assistindo” vídeos dos ambientes em que operam, como os escritórios da DeepMind. Num exemplo divulgado pelo Google, um robô guiou um usuário até um quadro branco após receber instruções verbais;
- Desempenho e capacidade: Apesar de demorarem de 10 a 30 segundos para processar solicitações, os robôs com Gemini alcançaram uma taxa de sucesso de 90% em executar instruções numa área operacional de mais de 835 metros quadrados;
- Potencial expandido: Além da navegação básica, há “evidências preliminares” de que o Gemini 1.5 Pro pode ajudar os robôs a planejar e executar tarefas mais complexas. Por exemplo, um robô checou a disponibilidade de uma bebida numa geladeira ao receber instrução de um usuário e analisar latinhas em cima da sua mesa.
IA do Google deixa robôs mais inteligentes e úteis nos escritórios da big tech
Os pesquisadores gravaram um tour em vídeo de uma área designada – no caso, o escritório do DeepMind. Depois, o robô “assistiu” ao vídeo, graças ao Gemini 1.5 Pro, para aprender sobre o ambiente.
Feito isso, o robô se tornou capaz de executar comandos baseados no que observou usando saídas verbais e/ou de imagem. Num exemplo publicado pelo DeepMind, o robô guia o usuário até um quadro branco após este pedir para que fosse levado até um local onde pudesse desenhar. Assista abaixo:
A demonstração pode impressionar, mas é importante ressaltar: os cortes do vídeo acima omitem que, após o robô receber cada solicitação, leva entre dez e 30 segundos para processá-las, de acordo com o artigo sobre a pesquisa.
A DeepMind afirma que seu robô com Gemini teve uma taxa de sucesso de 90% em mais de 50 instruções de usuários dadas numa área operacional de mais de 835 metros quadrados.
Os pesquisadores também encontraram “evidências preliminares” de que o Gemini 1.5 Pro permitiu que os robôs planejassem como cumprir instruções além da simples navegação.
Um exemplo citado foi o seguinte: quando um usuário com muitas latas de Coca na sua mesa (veja na imagem acima) pergunta ao robô se sua bebida favorita está disponível, a equipe disse que o Gemini “sabe que o robô deve navegar até a geladeira, verificar se há latas de Coca-Cola e depois retornar ao usuário para relatar o resultado”.
A DeepMind também afirmou que planeja investigar esses resultados mais a fundo.
OLHAR DIGITAL