Lightbits, inovação na eficiência de inferência de IA que reduz os custos de nuvem

TechubNews · 2026-03-11T15:36:34+00:00

A Lightbits Labs lançou uma nova arquitetura que resolve o problema do gargalo de memória na inferência de IA, otimiza a utilização da GPU e reduz os custos de processamento. O seu "KV cache" reutiliza resultados intermediários de cálculo, reduzindo cálculos desnecessários. O novo sistema pode acelerar a movimentação de dados, garantindo o funcionamento suave da GPU, e planeia colaborar com a NeoCloud para implementação.

TechubNews

2026-03-11 15:36:34

Geração de resumo em curso

O avanço na indústria tecnológica está a acelerar através de inovações no campo da inteligência artificial (IA). A Lightbits Labs lançou recentemente uma nova arquitetura destinada a resolver o problema do gargalo de memória em inferências de IA em larga escala. Esta arquitetura, desenvolvida em colaboração com a ScaleFlux e a FarmGPU, combina armazenamento rápido de memória não volátil, infraestrutura de inferência GPU e o software da Lightbits, ajudando os sistemas de IA a gerenciar de forma mais eficiente os dados em cache gerados durante a inferência.

Num contexto em que os operadores de nuvem enfrentam pressões de custos ao processar tarefas de inferência, o lançamento é uma boa notícia. Os altos custos das GPUs representam uma grande parte das despesas operacionais; para melhorar esta situação, a Lightbits estabeleceu como objetivo otimizar a utilização das GPUs.

A nova plataforma da Lightbits aumenta a quantidade de pedidos que uma única GPU pode processar, melhorando a eficiência da inferência. Isto resulta numa redução significativa do custo por processamento. Segundo os testes da Lightbits, ao aumentar o número de pedidos processados na mesma GPU para três vezes, conseguiu também reduzir os custos de energia e infraestrutura em 65%.

A solução central é o “cache KV”. Este cache armazena vetores intermediários gerados durante a inferência, reutilizando resultados de cálculos anteriores para evitar operações desnecessárias. No entanto, à medida que os modelos aumentam de tamanho, a capacidade do cache também cresce rapidamente. A demanda por memória aumenta mais de duas vezes por ano, sendo necessário um esforço conjunto para resolver este problema a longo prazo. Para isso, a Lightbits introduziu uma abordagem inovadora que prevê a movimentação de dados e fornece informações necessárias à GPU antecipadamente.

O sistema LightInferra consegue gerir e acelerar a transferência de dados entre diferentes níveis de memória, garantindo que a GPU não precise esperar pelos dados. Este sistema assegura uma execução fluida da inferência sem ultrapassar a capacidade de memória da GPU. Os provedores de nuvem podem usar esta solução para otimizar a utilização das GPUs ou aumentar a capacidade de processamento geral com a infraestrutura existente. Este arquiteto está em parceria com a NeoCloud e planeia entrar em produção a partir de julho.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.