Você verá modelos de fundação para Humanoides utilizando continuamente uma arquitetura estilo Sistema 2 + Sistema 1, que é na verdade inspirada na cognição humana.



A maioria dos modelos de visão-linguagem-ação (VLA) de hoje são construídos como sistemas multimodais centralizados que lidam com percepção, linguagem e ação dentro de uma única rede.

A infraestrutura do Codec é perfeita para isso, pois trata cada Operador como um módulo isolado. Isso significa que você pode iniciar vários Operadores em paralelo, cada um executando seu próprio modelo ou tarefa, mantendo-os encapsulados e coordenados através da mesma arquitetura.

Os robôs e os humanoides, em geral, têm tipicamente múltiplos cérebros, onde um operador pode lidar com o processamento visual, outro com o equilíbrio, outro com o planejamento de alto nível, etc., que podem ser todos coordenados através do sistema da Codec.

O modelo de fundação da Nvidia, Issac GR00T N1, utiliza a arquitetura de dois módulos System 2 + System 1. O System 2 é um modelo de visão-linguagem (a versão do PaLM ou similar, multimodal) que observa o mundo através das câmaras do robô e ouve instruções, e em seguida faz um plano de alto nível.

O Sistema 1 é uma política de transformador de difusão que pega esse plano e o transforma em movimentos contínuos em tempo real. Você pode pensar no Sistema 2 como o cérebro deliberativo e no Sistema 1 como o controlador corporal instintivo. O Sistema 2 pode produzir algo como "mova-se para o copo vermelho, agarre-o e depois coloque-o na prateleira", e o Sistema 1 irá gerar as trajetórias articulares detalhadas para as pernas e braços executarem cada etapa suavemente.

O Sistema 1 foi treinado com toneladas de dados de trajetória (, incluindo demonstrações teleoperadas por humanos e dados simulados fisicamente ) para dominar movimentos finos, enquanto o Sistema 2 foi construído sobre um transformador com pré-treinamento na internet ( para compreensão semântica ).

Essa separação entre raciocínio e ação é muito poderosa para a NVIDIA. Isso significa que o GR00T pode lidar com tarefas de longo prazo que requerem planejamento ( graças ao Sistema 2) e também reagir instantaneamente a perturbações ( graças ao Sistema 1).

Se um robô estiver carregando uma bandeja e alguém empurrar a bandeja, o Sistema 1 pode corrigir o equilíbrio imediatamente em vez de esperar que o mais lento Sistema 2 perceba.

GR00T N1 foi um dos primeiros modelos de fundação de robótica disponíveis publicamente, e rapidamente ganhou popularidade.

Fora da caixa, demonstrou habilidade em muitas tarefas na simulação, conseguia pegar e mover objetos com uma ou duas mãos, passar itens entre suas mãos e realizar tarefas em múltiplos passos sem qualquer programação específica para a tarefa. Como não estava ligado a uma única encarnação, os desenvolvedores mostraram-no a funcionar em diferentes robôs com ajustes mínimos.

Isto também é verdade para o modelo de fundação do Helix (Figure que utiliza este tipo de arquitetura. O Helix permite que dois robôs ou várias habilidades operem, o Codec poderia permitir um cérebro multiagente ao executar vários Operadores que compartilham informações.

Este design de "cápsula isolada" significa que cada componente pode ser especializado ) assim como o Sistema 1 vs Sistema 2( e até mesmo desenvolvido por diferentes equipes, mas ainda assim podem trabalhar juntos.

É uma abordagem única no sentido em que a Codec está construindo a pilha de software profunda para suportar esta inteligência modular e distribuída, enquanto a maioria dos outros foca apenas no próprio modelo de IA.

O Codec também aproveita grandes modelos pré-treinados. Se você estiver construindo uma aplicação de robô com isso, pode conectar um modelo da OpenVLA ou um modelo da fundação Pi Zero como parte do seu Operador. O Codec fornece os conectores, acesso fácil a feeds de câmera ou APIs de robô, para que você não precise escrever o código de baixo nível para obter imagens da câmera de um robô ou para enviar comandos de velocidade para seus motores. Tudo isso está abstraído por trás de um SDK de alto nível.

Uma das razões pelas quais estou tão otimista em relação à Codec é exatamente o que descrevi acima. Eles não estão a seguir narrativas, a arquitetura foi construída para ser a cola entre modelos de base, e suporta de forma fluida sistemas de múltiplos cérebros, o que é crítico para a complexidade humanoide.

Porque estamos tão no início desta tendência, vale a pena estudar os designs dos líderes da indústria e entender por que eles funcionam. A robótica é difícil de compreender, dado as camadas entre hardware e software, mas uma vez que você aprende a dividir cada seção em partes, torna-se muito mais fácil de digerir.

Pode parecer uma perda de tempo agora, mas este é o mesmo método que me deu uma vantagem durante a temporada de IA e por que estive à frente em tantos projetos. Torne-se disciplinado e aprenda quais componentes podem coexistir e quais componentes não escalam.

Vai trazer dividendos nos próximos meses.

Deca Trillions ) $CODEC ( codificado.
LL-0.98%
VSN-0.42%
IN-8.83%
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)