A Niantic utiliza 30 mil milhões de imagens de cidades do Pokémon Go para criar um sistema de localização visual, com precisão ao nível de centímetros, e está a testar com 1.000 robôs de entrega.
A Niantic, desenvolvedora do popular jogo de realidade aumentada Pokémon Go, através da sua empresa de IA Niantic Spatial, está a usar bilhões de imagens de cidades capturadas pelos jogadores ao longo dos anos para construir um sistema de localização visual e um modelo de mundo AI que compreende o mundo real. Esta tecnologia permite uma localização precisa em ambientes urbanos com sinais GPS instáveis, tendo já colaborado com empresas de robótica de entrega para testar e abrir novos caminhos na navegação de robôs e IA no mundo real.
Desde o seu lançamento em 2016, Pokémon Go tornou-se um jogo globalmente popular, com jogadores usando a câmara do telemóvel para capturar Pokémon no mundo real. Este jogo de realidade aumentada (AR), desenvolvido pela Niantic, mantém atualmente mais de 100 milhões de jogadores ativos por ano, mesmo após vários anos.
No entanto, durante o jogo, os jogadores precisam de apontar continuamente a câmara do telemóvel para edifícios e marcos urbanos, acumulando inadvertidamente uma vasta quantidade de imagens.
Recentemente, a Niantic Spatial, empresa de IA da Niantic, anunciou que recolheu e organizou cerca de 30 mil milhões de fotos de ambientes urbanos globais, todas com informações de localização e dados de captura, como direção do telemóvel, velocidade de movimento e ângulo de captura. Estes dados estão a ser usados para treinar IA na construção de um «modelo de mundo» que compreende o espaço real.
De acordo com a NewsForce, a mais recente tecnologia desenvolvida pela Niantic Spatial é um Sistema de Localização Visual (VPS). Este modelo de IA consegue analisar fotos de edifícios ou marcos para determinar a localização do utilizador, com precisão ao nível de centímetros.
A empresa afirma que a sua base de dados cobre atualmente mais de um milhão de marcos em todo o mundo. Em cada local, podem acumular-se milhares de imagens capturadas em diferentes horários, ângulos e condições meteorológicas. A IA compara as características dessas imagens para estimar a posição do dispositivo e a direção de visualização, fornecendo uma localização bastante precisa.
O diretor técnico da Niantic Spatial, Brian McClendon, explica que isto difere do GPS tradicional, que depende de sinais de satélite. O VPS usa a “vista” do ambiente para determinar a localização:
Em ambientes urbanos densos, os sinais de GPS frequentemente apresentam desvios, podendo causar erros de dezenas de metros ou orientações incorretas.
Embora estes erros não afetem significativamente os utilizadores comuns, para robôs que necessitam de navegação precisa, podem representar problemas graves. Assim, a tecnologia de localização baseada em reconhecimento de imagens é uma solução que as empresas de robótica estão a explorar.
A Niantic Spatial já está a colaborar com a Coco Robotics para testar a sua tecnologia. A Coco implementou cerca de 1.000 robôs de entrega em várias cidades nos EUA e Europa, usados principalmente para entregas de refeições e mercearias. Estes robôs, do tamanho de uma mala de mão, podem transportar até oito pizzas grandes ou quatro sacos de compras.
A empresa afirma que, apesar de já terem realizado mais de 500 mil entregas, às vezes os robôs enfrentam dificuldades devido à imprecisão do GPS, dificultando paragens exatas na porta do restaurante ou do cliente:
Com o sistema de localização visual da Niantic, os robôs podem usar as quatro câmaras instaladas para analisar o ambiente ao redor, permitindo uma determinação mais precisa da posição e direção, aumentando a fiabilidade das entregas.
O CEO da Niantic Spatial, John Hanke, explica que a tecnologia de localização visual foi inicialmente desenvolvida para suportar óculos AR e aplicações de realidade aumentada, mas com o rápido crescimento da indústria de robótica, a empresa começou a direcionar a tecnologia para navegação de robôs.
Ele revela que estão a criar um sistema chamado “Mapa Vivo”, um modelo digital do mundo altamente detalhado e continuamente atualizado, que reflete as mudanças do mundo real.
No futuro, robôs de entrega, dispositivos inteligentes e até dispositivos AR poderão fornecer dados de ambiente, alimentando continuamente o mapa digital e aproximando-o do aspeto dinâmico do mundo real.
Nos últimos anos, a pesquisa em IA tem dado especial atenção ao conceito de “Modelo de Mundo”. Apesar do excelente desempenho de grandes modelos de linguagem (LLMs) na manipulação de texto e conhecimento, eles ainda enfrentam limitações na compreensão do espaço físico e do ambiente real.
Ao combinar mapas, imagens e informações ambientais, o objetivo do Modelo de Mundo é permitir que a IA compreenda objetos, relações espaciais e mudanças ambientais. Empresas como a Google DeepMind também estão a desenvolver modelos capazes de gerar mundos virtuais para treinar agentes de IA.
A Niantic Spatial adota uma abordagem diferente, usando uma vasta quantidade de imagens do mundo real para reconstruir progressivamente um modelo digital do ambiente físico. Com a acumulação contínua de dados, este sistema poderá tornar-se uma infraestrutura fundamental para que robôs e IA compreendam o mundo real.