Author: Yu Lili; Source: An Yong Waves
Entre as sete grandes empresas de modelos de negócios da China, a DeepSeek é a mais discreta, mas sempre consegue ser lembrada de forma inesperada.
Um ano atrás, a surpresa veio do gigante da gestão de ativos quantitativos por trás dele, que era a única empresa fora das principais fábricas a reservar dez mil chips A100, um ano depois, foi ele que desencadeou a competição de preços de grandes modelos na China.
Em maio, que foi bombardeado pela IA, o DeepSeek se tornou famoso. A razão foi o lançamento do modelo de código aberto chamado DeepSeek V2, que oferece uma relação custo-benefício sem precedentes: o custo de inferência é reduzido para apenas 1 dólar por milhão de tokens, que é aproximadamente um sétimo do Llama3 70B e um septuagésimo do GPT-4 Turbo.
Enquanto DeepSeek é rapidamente apelidado de ‘Pinduoduo do mundo da IA’, gigantes como ByteDance, Tencent, Baidu, Alibaba, etc., também não conseguem resistir e estão todos reduzindo os preços. A guerra de preços dos grandes modelos chineses está prestes a começar.
**A fumaça na verdade obscurece o fato de que, ao contrário de muitas grandes fábricas que queimam dinheiro para subsidiar, a DeepSeek é lucrativa. **
Por trás disso está a inovação abrangente da arquitetura do modelo pela DeepSeek. Ele propõe uma nova arquitetura MLA (um novo mecanismo de atenção potencial de várias cabeças), reduzindo o uso de memória para 5%-13% em comparação com a arquitetura MHA mais comumente usada no passado. Ao mesmo tempo, sua estrutura exclusiva DeepSeekMoESparse também reduz o cálculo ao mínimo, o que finalmente leva à redução de custos.
No Vale do Silício, o DeepSeek é chamado de “força misteriosa do Oriente”. O analista-chefe da SemiAnalysis considera que o artigo DeepSeek V2 “pode ser o melhor deste ano”. O ex-funcionário da OpenAI, Andrew Carr, considera o artigo “cheio de sabedoria surpreendente” e aplicou suas configurações de treinamento em seu próprio modelo. Enquanto Jack Clark, ex-diretor de políticas da OpenAI e co-fundador da Anthropic, considera que o DeepSeek “contratou um grupo de talentos profundamente misteriosos” e acredita que os grandes modelos fabricados na China “serão uma força inegável, assim como drones e carros elétricos”.
**Esta é uma ocorrência rara em uma onda de IA que é em grande parte impulsionada pelo Vale do Silício. Vários especialistas da indústria nos disseram que essa forte resposta vem da inovação no nível da arquitetura, que é uma tentativa rara de grandes empresas de modelos nacionais e até mesmo grandes modelos globais de base de código aberto. **De acordo com um pesquisador de IA, a arquitetura Attention dificilmente foi modificada com sucesso ao longo dos anos, muito menos verificada em grande escala. “É até um pensamento que é cortado ao tomar uma decisão, porque a maioria das pessoas não tem confiança.”
Por outro lado, as grandes empresas domésticas raramente se envolvem na inovação arquitetônica, em parte porque poucas pessoas se dispõem a quebrar a visão estabelecida de que os Estados Unidos são melhores na inovação tecnológica de 0 a 1, enquanto a China é melhor na inovação aplicada de 1 a 10. Além disso, isso é muito pouco lucrativo - uma nova geração de modelos será desenvolvida em poucos meses, e as empresas chinesas só precisam seguir e aplicar corretamente. Inovar na estrutura do modelo significa não ter um caminho a seguir, o que requer muitos fracassos e implica custos enormes em termos de tempo e dinheiro.
DeepSeek is obviously a maverick. In the midst of the clamor that believes that big model technology will inevitably converge and follow is a smarter shortcut, DeepSeek values the value accumulated in the “detour” and believes that Chinese big model entrepreneurs can also join the global technological innovation besides application innovation.
Muitas das decisões da DeepSeek são diferentes das outras. Até agora, entre as sete principais empresas chinesas de modelos de negócios, a DeepSeek é a única que abandonou a rota ‘ter tudo’ e ainda está focada em pesquisa e tecnologia, sem desenvolver aplicativos para o consumidor final (toC). Também é a única empresa que não considerou totalmente a comercialização, optando firmemente pela rota do código aberto e nunca levantou fundos. Esses fatores fazem com que ela seja frequentemente esquecida fora do círculo, mas, ao mesmo tempo, ela é frequentemente divulgada pelos usuários na comunidade como ‘água encanada’.
Como é que o DeepSeek é realmente criado? Para isso, entrevistamos o fundador do DeepSeek, Liang Wenfeng, que raramente aparece em público.
O fundador dos anos 80, que estudou tecnologia desde a era do Quadrado Mágico, continuou sua abordagem discreta na era do DeepSeek, como todos os pesquisadores, todos os dias “lendo artigos, escrevendo código, participando de discussões em grupo”.
Embora muitos fundadores de fundos quantitativos tenham experiência em fundos de hedge no exterior, o que diferencia Liang Wenfeng é que ele sempre teve um histórico local e estudou inteligência artificial na área de engenharia eletrônica da Universidade de Zhejiang desde cedo, com formação em física, matemática e outras especialidades.
Vários profissionais do setor e pesquisadores da DeepSeek nos disseram que Liang Wenfeng é uma pessoa muito rara no campo de IA na China, que tem ‘uma capacidade de engenharia infraestrutural e habilidades de pesquisa de modelos poderosas, e também consegue mobilizar recursos’, ‘pode fazer julgamentos precisos do alto, e supera os pesquisadores de primeira linha em detalhes’, ele tem ‘uma capacidade de aprendizado aterrorizante’, ao mesmo tempo, ele ‘não parece em nada um chefe, mas sim um geek’.
Esta é uma entrevista particularmente rara. Nesta entrevista, este idealista tecnológico fornece uma voz particularmente escassa no cenário tecnológico chinês atual: ele é um dos poucos que coloca a visão de certo e errado antes da visão de ganho e nos lembra para ver a inércia da era e priorizar a inovação original.
Um ano atrás, quando o DeepSeek estava apenas começando, entrevistamos pela primeira vez Liang Wenfeng: ‘O cubo mágico louco: a jornada de um gigante invisível de IA com grandes modelos’. Se na época a frase ‘devemos abraçar a ambição de forma louca e sincera’ ainda era apenas um slogan bonito, um ano se passou e ela se tornou uma ação.
A seguir, parte da conversa
**“Surto Oculto”: Após o lançamento do modelo DeepSeek V2, rapidamente desencadeou uma grande guerra de preços de modelos, alguns dizem que vocês são um tubarão no setor.
Liang Wenfeng: Não é nossa intenção nos tornarmos um peixe-gato, apenas sem querer nos tornamos um peixe-gato.
‘Surto Sombrio’: vocês estão surpresos com este resultado?
Liang Wenfeng: Muito surpreendente. Não esperávamos que o preço fosse tão sensível para todos. Apenas seguimos nosso próprio ritmo para fazer as coisas e depois calculamos o preço com base nos custos. Nosso princípio é não perder dinheiro e também não lucrar excessivamente. Este preço também tem um pequeno lucro acima do custo.
“Ripple escura”: em 5 dias, o Smart AI de Zhìpǔ seguiu, seguido por gigantes como ByteDance, Alibaba, Baidu, Tencent, etc.
Liang Wenfeng: O Zhipu AI é um produto de nível de entrada, e os modelos do mesmo nível ainda são muito caros. A ByteDance foi realmente a primeira a seguir. O modelo principal foi reduzido para o mesmo preço que o nosso, o que desencadeou uma redução de preços em outras grandes fábricas. Como o custo do modelo das grandes fábricas é muito maior do que o nosso, não esperávamos que alguém fosse perder dinheiro com isso, e acabou se tornando a lógica do subsídio de queima de dinheiro na era da internet.
“Turbulência Subterrânea”: Do ponto de vista externo, a redução de preço parece uma batalha por clientes, o que é comum em guerras de preços na era da internet.
梁文锋:Roubar usuários não é o nosso principal objetivo. Estamos reduzindo o preço, em parte, porque o custo caiu enquanto exploramos a estrutura do próximo modelo, e também porque acreditamos que tanto a API quanto a IA devem ser acessíveis e acessíveis a todos.
‘Undercurrent’: Antes disso, a maioria das empresas chinesas simplesmente copiaria a estrutura de Llama desta geração para desenvolver aplicações. Por que vocês escolheram começar pela estrutura do modelo?
Liang Wenfeng: Se o objetivo é desenvolver aplicações, então seguir a estrutura Llama e lançar produtos de forma rápida e eficiente também é uma escolha razoável. Mas o nosso destino é a AGI, o que significa que precisamos pesquisar novas estruturas de modelo e, com recursos limitados, alcançar uma capacidade de modelo mais forte. Isso é um dos estudos fundamentais necessários para escalar para modelos maiores. Além da estrutura do modelo, também realizamos muitas outras pesquisas, incluindo como construir dados, como tornar o modelo mais semelhante aos humanos, etc., tudo isso é refletido nos modelos que lançamos. Além disso, em termos de eficiência de treinamento e custos de inferência, a estrutura do Llama já tem uma diferença de duas gerações em relação ao nível avançado no exterior.
‘Surge’: De onde vem essa diferença principal?
梁文锋:Em primeiro lugar, a eficiência do treinamento tem diferenças. Estimamos que, em comparação com o melhor nível doméstico, o modelo e a dinâmica de treinamento no exterior podem ter uma diferença de até o dobro, o que significa que precisamos de duas vezes mais poder de computação para alcançar o mesmo efeito. Além disso, a eficiência dos dados também pode ter uma diferença de até o dobro, o que significa que precisamos do dobro dos dados de treinamento e poder de computação para alcançar o mesmo efeito. No total, precisamos de quatro vezes mais poder de computação. O que precisamos fazer é constantemente reduzir essas diferenças.
‘Undercurrent’: Why does DeepSeek currently choose to only do research and exploration while most Chinese companies choose both models and applications?
Liang Wenfeng: Because we believe that the most important thing now is to participate in the wave of global innovation. In the past many years, Chinese companies have been accustomed to others doing technological innovation, and we have taken it and turned it into applications for monetization, but this is not a matter of course. In this wave, our starting point is not to make a profit, but to go to the forefront of technology and promote the development of the entire ecosystem.
“Surto Oculto”: A inércia cognitiva deixada para a maioria das pessoas na era da Internet e da Internet móvel é que os Estados Unidos são bons em inovação tecnológica, enquanto a China é melhor em aplicativos.
Liang Wenfeng: Acreditamos que, com o desenvolvimento econômico, a China também deve gradualmente se tornar um contribuinte, em vez de sempre ser um carona. Nos últimos 30 anos, não participamos efetivamente da verdadeira inovação tecnológica na onda de TI. Estamos acostumados com a Lei de Moore caindo do céu, trazendo hardware e software melhores a cada 18 meses. A Lei de Escalonamento também está sendo tratada dessa forma.
Mas na realidade, isto foi criado geração após geração pela comunidade tecnológica dominante no Ocidente, simplesmente porque não participamos neste processo anteriormente e acabamos por ignorar a sua existência.
‘Surto Sombrio’: Por que o DeepSeek V2 surpreendeu muitas pessoas em Silicon Valley?
Liang Wenfeng: This is a very ordinary one among the large number of innovations that happen in the United States every day. They are surprised because it is a Chinese company, joining their game as an innovative contributor. After all, most Chinese companies are used to following rather than innovating.
‘Surge obscura’: mas essa opção é muito luxuosa no contexto chinês. Os grandes modelos são um jogo de alta entrada, nem todas as empresas têm capital apenas para pesquisa e inovação, em vez de considerar a comercialização em primeiro lugar.
Liáng Wénfēng: O custo da inovação certamente não é baixo, e a inércia de seguir a tradição está relacionada com a situação passada do país. No entanto, se olharmos para o tamanho da economia chinesa e para os lucros das grandes empresas como ByteDance e Tencent, eles não são baixos em termos globais. O que nos falta na inovação certamente não é capital, mas sim confiança e a habilidade de organizar talentos de alta densidade para alcançar inovação eficaz.
“Surto Oculto”: Por que as empresas chinesas - incluindo grandes empresas ricas - tornam tão fácil a comercialização rápida como a principal prioridade?
梁文锋:Nos últimos 30 anos, temos enfatizado apenas ganhar dinheiro, negligenciando a inovação. A inovação não é puramente impulsionada pelo comércio, mas também requer curiosidade e desejo de criar. Estamos apenas limitados pela inércia do passado, mas também é uma fase.
**“Surge Escuro”: Mas afinal, vocês são uma organização comercial, não uma instituição de pesquisa sem fins lucrativos. Ao escolher inovar e depois compartilhar em código aberto, como é que pretendem criar uma defesa sólida? Por exemplo, a inovação da arquitetura MLA em maio provavelmente será rapidamente copiada por outras empresas, não é verdade?
Liang Wenfeng: Diante da tecnologia disruptiva, o fosso criado pelo software proprietário é temporário. Mesmo que a OpenAI seja proprietária, não pode impedir que outros a ultrapassem. Portanto, depositamos nosso valor na equipe. Nossos colegas crescem durante esse processo, acumulam muitos conhecimentos e formam uma cultura organizacional inovadora, que é o nosso fosso defensivo.
Open source, publishing papers, actually doesn’t lose anything. For technical personnel, being followed is a great sense of achievement. In fact, open source is more like a cultural behavior rather than a business behavior. Giving is actually an additional honor. A company doing this will also have cultural attractiveness.
‘Surge’ : Como você vê pontos de vista semelhantes aos dos crentes de mercado como Zhu Xiaohu?
Liang Wenfeng: Zhu Xiaohu is self-consistent, but his way of playing is more suitable for companies that make money quickly. If you look at the most profitable companies in the United States, they are all high-tech companies that have accumulated strength and developed steadily.
‘Surto Sombrio’: No entanto, é difícil formar uma vantagem absoluta apenas com a liderança técnica em grandes modelos. Qual é a coisa maior em que vocês estão apostando?
Liang Wenfeng: O que vemos é que a IA da China não pode ficar para sempre em uma posição de seguir. Costumamos dizer que a IA da China está atrasada em um ou dois anos em relação aos Estados Unidos, mas a diferença real está na diferença entre a originalidade e a imitação. Se isso não mudar, a China só poderá ser seguidora para sempre, então algumas explorações também são inevitáveis.
A liderança da NVIDIA não é apenas o esforço de uma empresa, mas sim o resultado do esforço conjunto da comunidade e indústria de tecnologia ocidental como um todo. Eles conseguem ver as tendências tecnológicas da próxima geração e têm um plano. O desenvolvimento da IA na China também necessita de um ecossistema semelhante. Muitos chips domésticos não conseguem se desenvolver devido à falta de uma comunidade de tecnologia complementar, e só têm acesso a informações de segunda mão, portanto a China certamente precisa de pessoas na vanguarda da tecnologia.
**‘Surge’': O DeepSeek atual tem um idealismo semelhante ao dos primeiros dias da OpenAI e também é de código aberto. Vocês planejam torná-lo proprietário no futuro? Tanto a OpenAI quanto a Mistral passaram do código aberto para o código proprietário.
梁文锋:não vamos fechar a fonte. Acreditamos que é mais importante ter um ecossistema tecnológico forte em primeiro lugar.
“Surge”: Do you have a financing plan? According to media reports, Fantasia has a plan to independently spin off and go public with DeepSeek, an AI startup company in Silicon Valley. In the end, it is inevitable for AI startups to be tied to big companies.
梁文锋:Não temos planos de financiamento a curto prazo, o problema que enfrentamos nunca foi o dinheiro, mas sim a proibição do transporte de chips de alta qualidade.
**‘Surge’: Many people believe that doing AGI and doing quantification are two completely different things. Quantification can be done silently, but AGI may require more high-profile actions and alliances, so as to increase your input.
Liang Wenfeng: Mais investimento nem sempre resulta em mais inovação. Caso contrário, as grandes empresas podem monopolizar toda a inovação.
**“暗涌”:Vocês não estão desenvolvendo aplicativos agora porque não têm o gene operacional?
Liang Wenfeng: We believe that the current stage is a period of technological innovation explosion, rather than an application explosion. In the long run, we hope to form an ecosystem where the industry directly uses our technology and outputs, and we are only responsible for basic models and cutting-edge innovations. Other companies can build toB and toC businesses based on DeepSeek. If a complete industrial chain is formed, we don’t need to develop applications ourselves. Of course, if necessary, we can also develop applications, but research and technological innovation will always be our top priority.
**“暗涌”:Mas se escolher API, por que escolher DeepSeek em vez de uma grande empresa?
梁文锋:O futuro do mundo provavelmente será especializado, os grandes modelos básicos precisarão de inovação contínua, e as grandes fábricas têm suas próprias fronteiras de capacidade, que nem sempre são adequadas.
‘Fluxo Oculto’: Mas a tecnologia realmente pode encurtar a distância? Você também disse que não há segredos técnicos absolutos.
Liang Wenfeng: A tecnologia não tem segredos, mas o reinício requer tempo e custo. As placas de vídeo da Nvidia, teoricamente, não têm nenhum segredo técnico e são fáceis de serem copiadas, mas é necessário tempo para reorganizar a equipe e acompanhar a próxima geração de tecnologia, então a verdadeira barreira de proteção ainda é ampla.
「暗涌」:Depois de baixar os preços, a ByteDance reagiu primeiro, o que indica que eles ainda sentem alguma ameaça. Como você vê a nova abordagem da competição entre startups e empresas estabelecidas?
Liang Wenfeng: Para ser honesto, não nos importamos muito com isso, apenas fizemos isso no processo. Fornecer serviços em nuvem não é o nosso objetivo principal. Nosso objetivo ainda é alcançar a AGI.
No momento, não se vê nenhuma solução nova, mas as grandes empresas também não têm uma clara vantagem. As grandes empresas têm usuários existentes, mas seus negócios de fluxo de caixa também são um fardo e podem torná-las alvos de perturbação a qualquer momento.
‘Surge Sombrio’: Como você vê o destino das outras seis empresas de modelos de negócios de grande escala além da DeepSeek?
Liang Wenfeng: Talvez sobrevivam 2 ou 3 empresas. Atualmente, todas estão na fase de queima de dinheiro, por isso aquelas que têm uma auto-posicionamento claro e uma operação mais refinada têm mais chances de sobreviver. Outras empresas podem passar por uma transformação. Coisas valiosas não desaparecerão, mas mudarão de forma.
“Surge”:Na era do quadrado mágico, a atitude de competição é avaliada como “eu faço do meu jeito”, raramente se preocupa com comparações horizontais. Em relação à competição, qual é o ponto de partida da sua reflexão?
梁文锋:O que eu costumo pensar é se algo pode aumentar a eficiência da sociedade e se você pode encontrar um lugar de destaque na cadeia industrial. Contanto que o objetivo final seja aumentar a eficiência social, isso é justificável. Muitos aspectos intermediários são apenas temporários, e é excessivo se concentrar demais neles.
“Surto Oculto”: Quem são as pessoas que fizeram a DeepSeek v2, que segundo Jack Clark, ex-diretor de políticas do OpenAI e co-fundador da Anthropic, contratou um grupo de especialistas misteriosos?
梁文锋:Não há gênios misteriosos e profundos, apenas recém-formados de algumas das melhores universidades, estudantes de doutorado que ainda não se formaram, estagiários de doutorado, e alguns jovens que se formaram há apenas alguns anos.
**‘Undercurrent’: Many large-scale model companies are persistently poaching talent overseas. Many people feel that the top 50 talents in this field may not be in Chinese companies. Where do your people come from?
Liang Wenfeng: O modelo V2 não tem pessoas que voltaram do exterior, todas são locais. Os 50 principais talentos podem não estar na China, mas talvez possamos cultivar essas pessoas por conta própria.
“Onda Escura”: Como é que esta inovação da MLA aconteceu? Ouvi dizer que a ideia surgiu inicialmente do interesse pessoal de um jovem pesquisador?
Liang Wenfeng: After summarizing some of the mainstream changes in the Attention architecture, he had a sudden idea to design an alternative solution. However, it was a long process from idea to implementation. We formed a team for this and it took us several months to get it up and running.
‘Surto Oculto’: O surgimento dessa inspiração divergente está relacionado à estrutura altamente inovadora de sua organização. Durante a era dos quadrados mágicos, vocês raramente atribuíam metas ou tarefas de cima para baixo. Mas, nessa exploração de ponta da AGI cheia de incertezas, há mais ações de gerenciamento?
Liang Wenfeng: DeepSeek is also all bottom-up. And we generally don’t pre-assign tasks, but rather have natural task allocation. Each person has their own unique growth experience and comes with their own ideas, so there is no need to push them. During the exploration process, if they encounter problems, they will naturally seek discussion with others. However, when an idea shows potential, we will also allocate resources top-down.
**“Surge Sombrio”: Ouvi dizer que o DeepSeek é muito flexível na montagem de cartas e pessoas."
梁文锋:Para cada um de nós, não há limite para a mobilização de cartões e pessoas. Se tiver uma ideia, cada um pode chamar cartões de treino a qualquer momento sem aprovação. Ao mesmo tempo, devido à inexistência de hierarquia e departamentos, também é possível mobilizar flexivelmente todas as pessoas, desde que a outra parte também esteja interessada.
‘Fluxo Oculto’: um estilo de gestão solto que depende de você selecionar um grupo de pessoas altamente motivadas. Ouvi dizer que vocês são bons em selecionar pessoas com base em detalhes, o que permite que indivíduos excelentes com base em critérios de avaliação não tradicionais sejam selecionados.’
Liang Wenfeng: Nossos critérios de seleção sempre foram o amor e a curiosidade, então muitas pessoas têm experiências peculiares, o que é interessante. Muitas pessoas desejam fazer pesquisas muito mais do que se preocupam com dinheiro.
“Surto Oculto”: O Transformer nasceu no AI Lab do Google, o ChatGPT nasceu na OpenAI, qual é a diferença de valor na inovação entre o AI Lab de grandes empresas e uma empresa iniciante?
Liang Wenfeng: Tanto o Google Lab quanto a OpenAI, e até mesmo o AI Lab das grandes empresas chinesas, são muito valiosos. No fim, foi a OpenAI que teve sucesso, mas também houve um elemento de acaso histórico.
**‘Surto Oculto’: A inovação é, em grande parte, também uma questão de acaso? Vejo que no meio da sua área de escritórios, há salas de reuniões dos dois lados que podem ser abertas livremente. Seus colegas dizem que isso deixa espaço para o acaso. Na criação do transformador, houve histórias de pessoas que passaram acidentalmente, ouviram a respeito e se juntaram, transformando-o eventualmente em um framework comum.
Liang Wenfeng: Acho que a inovação é, em primeiro lugar, uma questão de fé. Por que o Vale do Silício é tão inovador? Primeiro, é a coragem. Quando o Chatgpt apareceu, o país inteiro tinha pouca confiança em fazer inovações de ponta, desde investidores até grandes empresas, todos sentiram que havia uma grande lacuna, e preferiram se concentrar em aplicativos. Mas a inovação precisa de confiança. Essa confiança geralmente é mais evidente nos jovens.
“Dark Tide”: Mas vocês não participam do financiamento, raramente fazem declarações externas, a influência na sociedade com certeza não é tão grande quanto a das empresas ativas no financiamento. Como garantir que a DeepSeek seja a escolha principal das pessoas que desenvolvem grandes modelos?
Liang Wenfeng: Because we are doing the hardest thing. The biggest attraction for top talents is definitely to solve the world’s hardest problems. In fact, top talents are underestimated in China. Because there is too little hardcore innovation at the societal level, they have no chance to be recognized. We are doing the hardest thing, which is attractive to them.
“Surge escondido”: O lançamento anterior da OpenAI não trouxe o GPT-5, e muitas pessoas acham que a curva de tecnologia está claramente desacelerando. Muitas pessoas também começaram a questionar a Lei de Escalonamento. O que vocês acham?
梁文锋:nós somos otimistas, toda a indústria parece estar de acordo com as expectativas. OpenAI também não é um deus, não pode ficar na frente o tempo todo.
“Surge escura”: Quanto tempo achas que o AGI levará a ser realizado, antes do lançamento do DeepSeek V2, vocês lançaram a geração de código e modelos matemáticos, também mudaram do modelo denso para o MOE, então quais são os marcos do vosso plano AGI?
Liáng Wénfēng: Pode ser em 2 anos, 5 anos ou 10 anos, mas será realizado durante a nossa vida. Quanto ao roteiro, mesmo dentro da nossa empresa, não há consenso. No entanto, apostamos em três direções. Primeiro, matemática e código; segundo, multimodalidade; terceiro, a própria linguagem natural. A matemática e o código são o campo de testes naturais para a IA geral, um pouco como o jogo de Go, um sistema fechado e verificável, que pode atingir alta inteligência por meio de aprendizado próprio. Por outro lado, é necessário que a IA geral aprenda com multimodalidade e participe do mundo real dos seres humanos. Estamos abertos a todas as possibilidades.
「暗涌」:Você acha que o grande modelo final é qual estado?
Liang Wenfeng: There will be specialized companies providing basic models and services, and there will be a long chain of professional division of labor. More people will go above and beyond to meet the diverse needs of the entire society.
‘Turbulência Oculta’: No último ano, houve muitas mudanças no empreendedorismo de grandes modelos na China. Por exemplo, no início do ano passado, Wang Huiwen, que era muito ativa, se retirou, e as empresas que se juntaram posteriormente também começaram a mostrar diferenciação.
梁文锋:Wang Huiwen assumiu todas as perdas sozinho e permitiu que os outros se retirassem. Ele fez uma escolha que foi desfavorável para si mesmo, mas boa para todos, por isso ele é muito generoso, e eu admiro isso.
「暗涌」:Aonde está a sua energia focada agora?
Liang Wenfeng: A maior parte da minha energia está concentrada na pesquisa do próximo grande modelo. Há ainda muitos problemas não resolvidos.
‘Dark Wave’: Other large-scale model start-ups insist on both, after all, technology will not bring permanent leadership, it is also important to seize the time window to apply technological advantages to products. Does DeepSeek dare to focus on model research because model capabilities are not enough yet?
Liang Wenfeng: All tricks are products of the previous generation, and they may not be valid in the future. Discussing the profit model of future AI with the business logic of the Internet is like discussing General Electric and Coca-Cola when Ma Huateng started his business. It is likely to be a case of seeking a sword by looking in the wrong place.
**“暗涌”:A Ilha do Passado tem uma forte base tecnológica e de inovação, e o crescimento tem sido relativamente suave. Esta é a razão pela qual você é otimista?
梁文锋:Em certa medida, o Quadrado Mágico fortaleceu a nossa confiança na inovação impulsionada pela tecnologia, mas nem tudo foi um mar de rosas. Passamos por um longo processo de acumulação. O que os outros veem é apenas a parte posterior a 2015 do Quadrado Mágico, mas na verdade estamos nisso há 16 anos.
‘Surge’ - Returning to the topic of original innovation. Now that the economy is entering a downturn and capital is also entering a cold cycle, will it bring more suppression to original innovation?
梁文锋:Eu acho que não necessariamente. A reestruturação da indústria chinesa dependerá mais da inovação em tecnologia de ponta. Quando muitas pessoas percebem que o dinheiro rápido no passado pode ter vindo da sorte da época, elas estarão mais dispostas a se dobrar e fazer inovações reais.
“Surge”:So you’re optimistic about this too?
Liang Wenfeng: Eu cresci em uma cidade de quinta linha em Guangdong nos anos 80. Meu pai era professor primário. Nos anos 90, havia muitas oportunidades de ganhar dinheiro em Guangdong. Naquela época, muitos pais vinham até minha casa, basicamente porque achavam que estudar não tinha utilidade. Mas agora, olhando para trás, as mentalidades mudaram. Porque agora não é fácil ganhar dinheiro, até mesmo a oportunidade de dirigir um táxi pode desaparecer. O tempo de uma geração mudou.
Haverá cada vez mais inovação hardcore no futuro. Pode não ser fácil de entender agora, porque todo o grupo social precisa ser educado por fatos. Quando esta sociedade torna famosos os inovadores hardcore, o pensamento coletivo mudará. Só precisamos de um conjunto de factos e de um processo. **