A Google DeepMind publicou um modelo de base totalmente novo para robôs, o Gemini Robotics ER 1.6, em que o ER significa Embodied Reasoning (raciocínio incorporado). Este modelo alcança o atual melhor nível (SOTA) em raciocínio visual e espacial e já foi disponibilizado através da Gemini API. Logan Kilpatrick, responsável pelas relações com programadores de IA na Google, divulgou esta notícia nas redes sociais. (Fonte)
O que é o Embodied Reasoning?
Embodied Reasoning refere-se à capacidade dos modelos de IA compreenderem e raciocinarem sobre o mundo físico. Ao contrário dos modelos de linguagem tradicionais, os modelos de raciocínio incorporado precisam de lidar com a posição dos objetos no espaço tridimensional, bem como com a sua forma, materiais e relações de interação física. O Gemini Robotics ER 1.6 foi otimizado especificamente para este tipo de tarefas, permitindo que os robôs compreendam com mais precisão o ambiente envolvente e tomem decisões adequadas sobre as ações a executar.
Capacidades principais
As principais vantagens do Gemini Robotics ER 1.6 concentram-se em duas vertentes:
Capacidade Descrição Raciocínio visual Capacidade de identificar objetos a partir de imagens e vídeos, compreender a estrutura do cenário e, com base nisso, tomar decisões Raciocínio espacial Compreender a posição relativa, a distância e a direção dos objetos no espaço tridimensional, apoiando a planificação de operações complexas
A combinação destas duas capacidades permite que os robôs lidem com tarefas do mundo real mais complexas. Por exemplo, num ambiente de armazém, o robô precisa de identificar simultaneamente objetos de diferentes formas e calcular o melhor ângulo de pega e a posição de colocação — exatamente o tipo de cenário em que o Gemini Robotics ER 1.6 é particularmente competente.
Utilização através da Gemini API
Ao contrário de muitos modelos de robôs do passado que ficaram apenas na fase de artigo, o Gemini Robotics ER 1.6 já disponibiliza acesso através da Gemini API. Isto significa que os programadores e os fabricantes de hardware podem integrar diretamente este modelo nos seus próprios sistemas de robôs, sem necessidade de treinar o modelo do zero.
A disponibilização da API também reduz o limiar para o desenvolvimento de IA para robôs. No passado, desenvolver um sistema de robôs com capacidades de raciocínio visual e espacial exigia uma recolha massiva de dados e trabalho de treino de modelos. Agora, os programadores podem concentrar-se no desenvolvimento do design do hardware e dos casos de uso, deixando as capacidades de raciocínio de base a cargo do Gemini Robotics ER 1.6.
O posicionamento da Google em IA para robôs
O Gemini Robotics ER 1.6 é o mais recente resultado da Google DeepMind na área da robótica. Do RT-2, numa fase inicial, até à série Gemini Robotics de hoje, a Google tem continuado a expandir as capacidades dos grandes modelos de linguagem para a interação com o mundo físico. A versão ER 1.6 melhora ainda mais a exatidão do raciocínio face aos antecessores, destacando-se particularmente em cenários que exigem manipulações mais precisas.
À medida que a indústria de robôs entra numa nova fase de crescimento, os modelos de base com fortes capacidades de raciocínio visual e espacial tornar-se-ão infraestrutura-chave. Para saber mais sobre a evolução do ecossistema Gemini, pode consultar o guia completo do Gemini.
Este artigo Google lançou o Gemini Robotics ER 1.6: modelo de robôs SOTA, especializado em raciocínio visual e espacial foi publicado pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
Naver lança beta do AI Tab à medida que o Google Gemini entra no mercado de buscas da Coreia do Sul
Contratação de Engenharia de IA na Índia dispara 59,5%, se expande além dos hubs de tecnologia
Banco Commonwealth Reduz 120 Empregos Com a Expansão da IA
A Cursor revela as razões do treinamento de XAI: o poder de computação ficou travado, e a SpaceX, por sua vez, detém opções de compra no valor de 60 bilhões de dólares
Avaliação no mercado secundário da Anthropic ultrapassa 1 trilhão de dólares: Forge Global supera a OpenAI em 880 bilhões
Meta Platforms Planeja Redução de 10% da Força de Trabalho em 20 de Maio, Afetando Aproximadamente 8.000 Posições