26.4 C
New York
Friday, June 21, 2024

Vários modelos de IA ajudam os robôs a executar planos complexos


Ouça este artigo

Dublado por Amazon Polly
um novo sistema multimodal de IA desenvolvido pelo MIT

A estrutura HiP desenvolve planos detalhados para robôs usando a experiência de três modelos de fundação diferentes, ajudando-os a executar tarefas em residências, fábricas e construções que exigem múltiplas etapas. | Crédito: Alex Shipps/MIT CSAIL

Sua lista de tarefas diárias provavelmente é bastante simples: lavar a louça, comprar mantimentos e outras minúcias. É improvável que você tenha escrito “pegue o primeiro prato sujo” ou “lave o prato com uma esponja”, porque cada uma dessas etapas em miniatura da tarefa parece intuitiva. Embora possamos concluir cada etapa rotineiramente sem pensar muito, um robô requer um plano complexo que envolve contornos mais detalhados.

O Improvável AI Lab do MIT, um grupo do Laboratório de Ciência da Computação e Inteligência Synthetic (CSAIL), ofereceu a essas máquinas uma ajuda com uma nova estrutura multimodal: Modelos de base composicional para planejamento hierárquico (HiP), que desenvolve planos detalhados e viáveis ​​com a experiência de três modelos de fundação diferentes. Assim como o GPT-4 da OpenAI, o modelo básico sobre o qual o ChatGPT e o Bing Chat foram construídos, esses modelos básicos são treinados em grandes quantidades de dados para aplicações como geração de imagens, tradução de texto e robótica.

Continua após a publicidade..

Ao contrário do RT2 e de outros modelos multimodais que são treinados em dados emparelhados de visão, linguagem e ação, o HiP usa três modelos básicos diferentes, cada um treinado em diferentes modalidades de dados. Cada modelo básico captura uma parte diferente do processo de tomada de decisão e trabalha em conjunto quando chega a hora de tomar decisões. O HiP elimina a necessidade de acesso a dados combinados de visão, linguagem e ação, que são difíceis de obter. O HiP também torna o processo de raciocínio mais transparente.

O que é considerado uma tarefa diária para um ser humano pode ser a “meta de longo horizonte” de um robô – um objetivo abrangente que envolve a conclusão de muitas etapas menores primeiro – exigindo dados suficientes para planejar, compreender e executar objetivos. Embora os pesquisadores de visão computacional tenham tentado construir modelos de base monolíticos para esse problema, combinar dados de linguagem, visuais e de ação é caro. Em vez disso, o HiP representa uma receita multimodal diferente: um trio que incorpora inteligência linguística, física e ambiental de forma barata num robô.


SITE AD para a chamada de indicações do RBR50 2024.Envie suas indicações para prêmios de inovação na premiação RBR50 2024.


“Os modelos de fundação não precisam ser monolíticos”, disse NVIDIA O pesquisador de IA Jim Fan, que não esteve envolvido em o papel. “Este trabalho decompõe a complexa tarefa de planejamento de agente incorporado em três modelos constituintes: um raciocinador de linguagem, um modelo de mundo visible e um planejador de ação. Isso torna um problema difícil de tomada de decisão mais tratável e transparente.”

Continua após a publicidade..

A equipe acredita que seu sistema de IA poderia ajudar essas máquinas a realizar tarefas domésticas, como guardar um livro ou colocar uma tigela na máquina de lavar louça. Além disso, o HiP pode ajudar nas tarefas de construção e fabricação em várias etapas, como empilhar e colocar diferentes materiais em sequências específicas.

Avaliando HiP

A equipe CSAIL testou a acuidade do HiP em três tarefas de manipulação, superando estruturas comparáveis. O sistema raciocinou desenvolvendo planos inteligentes que se adaptam às novas informações.

Primeiro, os pesquisadores solicitaram que empilhasse blocos de cores diferentes uns sobre os outros e depois colocasse outros próximos. O problema: algumas das cores corretas não estavam presentes, então o robô teve que colocar blocos brancos em uma tigela colorida para pintá-los. O HiP frequentemente se ajustava a essas mudanças com precisão, especialmente em comparação com sistemas de planejamento de tarefas de última geração, como o Transformer BC e o Motion Diffuser, ajustando seus planos para empilhar e posicionar cada quadrado conforme necessário.

Outro teste: organizar objetos como doces e um martelo em uma caixa marrom, ignorando outros itens. Alguns dos objetos que precisava mover estavam sujos, então a HiP ajustou seus planos para colocá-los em uma caixa de limpeza e depois no recipiente marrom. Em uma terceira demonstração, o bot foi capaz de ignorar objetos desnecessários para completar subobjetivos da cozinha, como abrir um micro-ondas, tirar uma chaleira do caminho e acender a luz. Algumas das etapas solicitadas já haviam sido concluídas, então o robô se adaptou ignorando essas instruções.

Uma hierarquia tripartida

O processo de planejamento triplo do HiP opera como uma hierarquia, com a capacidade de pré-treinar cada um de seus componentes em diferentes conjuntos de dados, incluindo informações fora da robótica. Na parte inferior dessa ordem está um grande modelo de linguagem (LLM), que começa a idealizar capturando todas as informações simbólicas necessárias e desenvolvendo um plano de tarefas abstrato. Aplicando o conhecimento do senso comum encontrado na web, o modelo divide seu objetivo em submetas. Por exemplo, “fazer uma xícara de chá” se transforma em “encher uma panela com água”, “ferver a panela” e as ações subsequentes necessárias.

Continua após a publicidade..

“Tudo o que queremos fazer é pegar os modelos pré-treinados existentes e fazer com que eles interajam entre si com sucesso”, diz Anurag Ajay, estudante de doutorado no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT e afiliado do CSAIL. “Em vez de buscar um modelo para fazer tudo, combinamos vários modelos que aproveitam diferentes modalidades de dados da Web. Quando usados ​​em conjunto, eles ajudam na tomada de decisões robóticas e podem potencialmente auxiliar nas tarefas em residências, fábricas e canteiros de obras.”

Esses modelos de IA também precisam de algum tipo de “olho” para compreender o ambiente em que operam e executar corretamente cada subobjetivo. A equipe usou um grande modelo de difusão de vídeo para ampliar o planejamento inicial concluído pelo LLM, que coleta informações geométricas e físicas sobre o mundo a partir de imagens na web. Por sua vez, o modelo de vídeo gera um plano de trajetória de observação, refinando o esboço do LLM para incorporar novos conhecimentos físicos.

Este processo, conhecido como refinamento iterativo, permite ao HiP raciocinar sobre as suas ideias, recebendo suggestions em cada etapa para gerar um esboço mais prático. O fluxo de suggestions é semelhante ao de escrever um artigo, onde um autor pode enviar seu rascunho a um editor, e com essas revisões incorporadas, o editor analisa as últimas alterações e finaliza.

Neste caso, o topo da hierarquia é um modelo de ação egocêntrico, ou uma sequência de imagens em primeira pessoa que inferem quais ações devem ocorrer com base no seu entorno. Durante esta etapa, o plano de observação do modelo de vídeo é mapeado no espaço visível para o robô, ajudando a máquina a decidir como executar cada tarefa dentro do objetivo de longo horizonte. Se um robô usa HiP para fazer chá, isso significa que ele mapeou exatamente onde estão a panela, a pia e outros elementos visuais importantes e começará a completar cada subobjetivo.

Continua após a publicidade..

Ainda assim, o trabalho de IA multimodal é limitado pela falta de modelos básicos de vídeo de alta qualidade. Uma vez disponíveis, eles poderiam interagir com os modelos de vídeo de pequena escala do HiP para melhorar ainda mais a previsão da sequência visible e a geração de ações do robô. Uma versão de qualidade superior também reduziria os atuais requisitos de dados dos modelos de vídeo.

Dito isto, a abordagem da equipe CSAIL usou apenas uma pequena quantidade de dados em geral. Além disso, o treinamento do HiP period barato e demonstrou o potencial do uso de modelos de base prontamente disponíveis para completar tarefas de longo horizonte.

“O que a Anurag demonstrou é uma prova de conceito de como podemos pegar modelos treinados em tarefas e modalidades de dados separadas e combiná-los em modelos para planejamento robótico. No futuro, o HiP poderá ser aumentado com modelos pré-treinados que podem processar toque e som para fazer planos melhores”, disse o autor sênior Pulkit Agrawal, professor assistente do MIT em EECS e diretor do Improvável AI Lab. O grupo também está considerando aplicar o HiP para resolver tarefas reais de longo horizonte em robótica.

Nota do editor: Este artigo foi republicado em Notícias do MIT.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles