Gate News notícias, em 17 de março, a Moonshot publicou um relatório técnico sobre Attention Residuals, propondo substituir as conexões residuais fixas do Transformer por um mecanismo de atenção. No modelo Kimi Linear 48B, essa abordagem pode equivaler a um uso 25% maior de poder de processamento, com um aumento de menos de 2% na latência de inferência. Elon Musk publicou ontem à noite no X: “Impressive work from Kimi”, e a conta oficial da Moonshot respondeu hoje no Weibo: “Seu foguete também ficou ótimo!”.
Este tweet também direciona a discussão para um dos co-autores do artigo: Chen Guangyu (nome em inglês Nathan), de 17 anos, atualmente ainda no ensino médio. Os outros dois co-autores são Su Jianlin, criador do RoPE (Codificação de Posição Rotativa), e Zhang Yu, primeiro autor do Kimi Linear. Chen Guangyu ingressou na Moonshot em novembro de 2025. O projeto de código aberto Flash Linear Attention no GitHub foi seu ponto de entrada no aprendizado de máquina.
Chen Guangyu também respondeu às discussões no X, dizendo que um artigo que combina algoritmos e infra, com experimentos e teoria, dificilmente seria escrito por uma única pessoa. A equipe da Kimi está envolvida, Yu Zhang e Su Jianlin também são contribuidores iguais, e ele alertou para não acreditar em rumores.
Seu perfil no LinkedIn mostra que estuda na Basis International Park Lane Harbour em Huizhou. A Moonshot Academy organizou em março de 2025 o hackathon para estudantes do ensino médio “Moonshot 48”, no qual Chen Guangyu foi campeão.