A mais recente pesquisa do MIT oferece uma inspiração interessante: quando se trata de lidar com sequências de tokens que ultrapassam dezenas de milhões, a solução de desempenho ótimo não é simplesmente acumular capacidades nos pesos do modelo — mas sim separar a lógica de cálculo central para um ambiente estruturado externo. No caso de ambientes de execução de código, esse é um exemplo prático dessa abordagem.



Sob uma nova perspectiva, o suporte ao conhecimento e ao raciocínio está passando por uma transformação. Antes, pensávamos que os pesos do modelo eram o recipiente de tudo, mas essa pesquisa mostra que, quando a escala é suficientemente grande, a verdadeira emergência da inteligência ocorre naquelas estruturas externas cuidadosamente projetadas — aquelas estruturas geométricas. O significado por trás disso é bastante profundo: as arquiteturas de IA do futuro podem se parecer cada vez mais com engenharia, dependendo mais de um design de sistema engenhoso do que do mero tamanho do modelo.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • Repostar
  • Compartilhar
Comentário
0/400
JustHodlItvip
· 01-22 09:11
Esta perspetiva é realmente fresca, mas acho que há um detalhe que precisa ser discutido. Separar a lógica de cálculo para um quadro externo, na essência, ainda é uma forma de "transferência de peso" — apenas passou do espaço de parâmetros para o espaço de arquitetura. Em suma, aqueles parâmetros de modelo que você economiza, na verdade, estão codificados nas regras do design do sistema. A verdadeira questão é: esse quadro estruturado externo pode tornar-se um novo gargalo? Especialmente quando você precisa lidar com problemas de áreas completamente desconhecidas, a estrutura geométrica pré-projetada consegue adaptar-se? Parece mais uma otimização para tarefas específicas, e não uma direção de evolução para inteligência geral. No entanto, a abordagem de engenharia que você mencionou realmente merece atenção — mas eu prefiro entender como: no futuro, pode haver arquiteturas híbridas, e não uma completa abdicação do tamanho do modelo. Afinal, as vantagens dos grandes modelos na generalização ainda são concretas.
Ver originalResponder0
POAPlectionistvip
· 01-22 08:58
Este ponto de vista realmente acertou em cheio. Antes, estávamos sempre a focar na quantidade de parâmetros do modelo, mas agora parece que o verdadeiro limite pode não estar nos pesos em si, mas na conceção da estrutura externa. É um pouco como a mudança de uma abordagem de "capacidade cerebral" para uma de "cadeia de ferramentas". No entanto, gostaria de perguntar, qual é a vantagem real de separar a lógica para o ambiente externo na gestão de sequências longas? Ela advém da eficiência computacional ou de uma melhoria fundamental na organização da informação? Sinto que, se esses dois pontos não forem claramente distinguidos, podemos superestimar a versatilidade desta direção.
Ver originalResponder0
TxFailedvip
· 01-19 09:58
Este ponto de vista realmente captou algo. Sempre achei que estamos a percorrer demasiado tempo na estrada do "esforço intenso para alcançar milagres", sempre a pensar em acumular parâmetros e dados, mas o verdadeiro gargalo está na arquitetura do sistema. A ideia de um ambiente estruturado externo lembra um pouco a intuição da engenharia de software tradicional — problemas complexos não são resolvidos apenas com força bruta de um módulo único, mas sim com combinações e designs engenhosos. Só tenho uma dúvida, como é que neste estudo o "quadro externo" mede especificamente a eficiência? Por exemplo, qual é a compensação entre o ambiente de execução do código e a inferência de modelos ponta a ponta, em termos de atraso real e custos? Parece que essa é a verdadeira chave para uma implementação prática.
Ver originalResponder0
screenshot_gainsvip
· 01-19 09:55
Este ângulo realmente atualiza a compreensão. Antes, sempre pensei que a lei de escalonamento fosse apenas empilhar parâmetros, mas não esperava que o gargalo estivesse no design da arquitetura. Com um contexto longo, descarregar a inferência para um ambiente externo, isso não é uma desconstrução do próprio modelo? Parece que a competição futura mudará de quem tem o modelo maior para quem consegue projetar um sistema mais elegante. É um pouco como uma mudança de uma competição de poder de cálculo bruto para uma era de estética de engenharia.
Ver originalResponder0
StableCoinKarenvip
· 01-19 09:52
Este ângulo realmente merece reflexão. Mas quero perguntar, a complexidade do design do quadro externo não é essencialmente uma "empilhamento" também, só que o objeto do empilhamento mudou de pesos para a arquitetura do sistema? Parece mais um trade-off do que uma inovação fundamental — transferir o problema do nível do modelo para o nível da engenharia, no final das contas ainda é preciso gastar tempo para otimizar essas estruturas externas. Gostaria de saber se minha compreensão está equivocada.
Ver originalResponder0
HodlTheDoorvip
· 01-19 09:50
Essa abordagem realmente revolucionou o nosso quadro de referência anterior. Antes estávamos focados em aumentar a quantidade de parâmetros, mas agora parece que o design de sistemas externos é a chave, parece uma mudança de paradigma de empilhar para arquitetar. Mas estou bastante curioso: qual é a manutenibilidade e o custo dessa solução de separação para frameworks externos na implementação prática? Afinal, embora os pesos sejam "pesados", pelo menos são uma caixa preta unificada, enquanto um ambiente estruturado mal projetado pode facilmente se tornar um gargalo de desempenho. A tese do MIT tem algum dado comparativo sobre esse aspecto?
Ver originalResponder0
GasFeeTherapistvip
· 01-19 09:49
Essa abordagem realmente mudou a minha percepção sobre grandes modelos. Antes, achava que era preciso buscar um maior número de parâmetros, mas agora parece que essa estratégia pode estar errada. Externalizar a lógica de cálculo para um ambiente estruturado soa como uma mudança de mentalidade de memória overflow para armazenamento em disco — o problema não está na capacidade, mas em como organizar. O exemplo do ambiente de execução de código é especialmente revelador; o modelo em si não precisa "entender" como executar o código, basta fazer uma coordenação correta. Pensando assim, no futuro talvez nem seja necessário continuar na corrida armamentista de quantidade de parâmetros, e sim que as equipes que conseguirem projetar a estrutura mais eficiente serão as vencedoras.
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)