Lightbits, inovação na eficiência de inferência de IA que reduz os custos de nuvem

robot
Geração de resumo em curso

O avanço na indústria tecnológica está a acelerar através de inovações no campo da inteligência artificial (IA). A Lightbits Labs lançou recentemente uma nova arquitetura destinada a resolver o problema do gargalo de memória em inferências de IA em larga escala. Esta arquitetura, desenvolvida em colaboração com a ScaleFlux e a FarmGPU, combina armazenamento rápido de memória não volátil, infraestrutura de inferência GPU e o software da Lightbits, ajudando os sistemas de IA a gerenciar de forma mais eficiente os dados em cache gerados durante a inferência.

Num contexto em que os operadores de nuvem enfrentam pressões de custos ao processar tarefas de inferência, o lançamento é uma boa notícia. Os altos custos das GPUs representam uma grande parte das despesas operacionais; para melhorar esta situação, a Lightbits estabeleceu como objetivo otimizar a utilização das GPUs.

A nova plataforma da Lightbits aumenta a quantidade de pedidos que uma única GPU pode processar, melhorando a eficiência da inferência. Isto resulta numa redução significativa do custo por processamento. Segundo os testes da Lightbits, ao aumentar o número de pedidos processados na mesma GPU para três vezes, conseguiu também reduzir os custos de energia e infraestrutura em 65%.

A solução central é o “cache KV”. Este cache armazena vetores intermediários gerados durante a inferência, reutilizando resultados de cálculos anteriores para evitar operações desnecessárias. No entanto, à medida que os modelos aumentam de tamanho, a capacidade do cache também cresce rapidamente. A demanda por memória aumenta mais de duas vezes por ano, sendo necessário um esforço conjunto para resolver este problema a longo prazo. Para isso, a Lightbits introduziu uma abordagem inovadora que prevê a movimentação de dados e fornece informações necessárias à GPU antecipadamente.

O sistema LightInferra consegue gerir e acelerar a transferência de dados entre diferentes níveis de memória, garantindo que a GPU não precise esperar pelos dados. Este sistema assegura uma execução fluida da inferência sem ultrapassar a capacidade de memória da GPU. Os provedores de nuvem podem usar esta solução para otimizar a utilização das GPUs ou aumentar a capacidade de processamento geral com a infraestrutura existente. Este arquiteto está em parceria com a NeoCloud e planeia entrar em produção a partir de julho.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar