Auteur: Yu Lili; Source: Vagues sombres
Parmi les sept grandes startups de modélisation en Chine, DeepSeek reste discret, mais parvient toujours à se faire remarquer de manière inattendue.
Il y a un an, cette surprise venait du géant de la finance quantitative, Huobi, qui était la seule entreprise en dehors des grandes usines à détenir 10 000 puces A100. Un an plus tard, c’est cette entreprise qui a déclenché la guerre des prix des grands modèles en Chine.
En mai, DeepSeek est devenu célèbre sous les bombardements continus de l’IA. La raison en est leur modèle open source appelé DeepSeek V2, qui offre un rapport qualité-prix sans précédent : le coût d’inférence est réduit à seulement 1 yuan pour chaque million de jetons, soit environ un septième de Llama3 70B et un soixante-dixième de GPT-4 Turbo.
Alors que DeepSeek est rapidement surnommé le “Pinduoduo de l’IA”, des géants tels que ByteDance, Tencent, Baidu, Alibaba, etc. ne peuvent s’empêcher de baisser leurs prix. Ainsi, la guerre des prix des grands modèles en Chine est sur le point d’éclater.
La fumée de guerre qui se répand en réalité dissimule un fait : contrairement à de nombreuses grandes usines qui brûlent de l’argent, DeepSeek est rentable.
Derrière tout cela, DeepSeek a innové dans l’architecture du modèle. Il a proposé une toute nouvelle architecture MLA (un nouveau mécanisme d’attention potentielle multi-têtes), qui a réduit l’occupation de la mémoire à 5%-13% de l’architecture MHA la plus couramment utilisée dans le passé. En même temps, sa structure DeepSeekMoESparse innovante a également réduit au minimum la quantité de calcul, et tout cela a finalement entraîné une baisse des coûts.
Dans la Silicon Valley, DeepSeek est appelé la “force mystérieuse de l’Est”. Selon le principal analyste de SemiAnalysis, le document de recherche DeepSeek V2 “pourrait être le meilleur de l’année”. Andrew Carr, ancien employé d’OpenAI, estime que le document est “rempli d’une intelligence étonnante” et applique ses paramètres d’entraînement à ses propres modèles. Jack Clark, ancien directeur des politiques d’OpenAI et co-fondateur d’Anthropic, estime que DeepSeek a “embauché un groupe de talents mystérieux et profonds” et pense que les grands modèles fabriqués en Chine “deviendront une force incontournable, tout comme les drones et les voitures électriques”.
Dans la vague d’IA, qui est principalement dirigée par la Silicon Valley, c’est un cas rare. Plusieurs professionnels de l’industrie nous ont dit que cette forte réaction provient d’une innovation au niveau de l’architecture, une tentative rare des entreprises chinoises de modèles de grande taille et même des bases de modèles ouverts mondiaux. Un chercheur en IA a déclaré que, au cours des nombreuses années depuis la proposition de l’architecture Attention, il n’a presque pas été modifié avec succès, sans parler d’une validation à grande échelle. “C’est même une pensée qui peut être coupée lors de la prise de décision, car la plupart des gens manquent de confiance.”
D’autre part, les grands modèles nationaux ont rarement innové dans le domaine de l’architecture, car peu de gens ont pris l’initiative de briser ce préjugé : les États-Unis sont meilleurs pour l’innovation technologique de 0 à 1, tandis que la Chine excelle dans l’innovation applicative de 1 à 10. De plus, ce comportement est très peu rentable - une nouvelle génération de modèles sera naturellement développée dans quelques mois, et les entreprises chinoises n’ont qu’à suivre et bien appliquer. Innover dans la structure des modèles signifie qu’il n’y a pas de chemin à suivre, il faut traverser de nombreux échecs, ce qui entraîne de grandes pertes de temps et de coûts économiques.
DeepSeek est clairement un innovateur. Dans un vacarme où tout le monde pense que la technologie des grands modèles suit inévitablement la même tendance et que suivre est un raccourci plus intelligent, DeepSeek accorde de la valeur à la valeur accumulée dans le “chemin détourné” et estime que les entrepreneurs chinois des grands modèles peuvent également se joindre au courant mondial de l’innovation technologique, en plus de l’innovation applicative.
Beaucoup des choix de DeepSeek sont uniques. Jusqu’à présent, parmi les sept grandes entreprises chinoises de modélisation, elle est la seule à avoir abandonné la voie du “avoir le beurre et l’argent du beurre”, se concentrant exclusivement sur la recherche et la technologie sans développer d’applications grand public. C’est aussi la seule entreprise à ne pas avoir pleinement envisagé la commercialisation, choisissant résolument la voie de l’open source et n’ayant même pas levé de fonds. Tout cela fait qu’elle est souvent oubliée dans les coulisses, mais de l’autre côté, elle est souvent diffusée dans la communauté par les utilisateurs comme de l’eau courante.
Comment DeepSeek a-t-il été créé ? Nous avons interviewé Liang Wenfeng, le fondateur de DeepSeek, qui se fait rarement voir.
Ce fondateur des années 80, qui a étudié la technologie en coulisses depuis l’ère des carrés magiques, continue de suivre son style discret à l’époque de DeepSeek, comme tous les autres chercheurs, “lit des articles, écrit du code, participe à des discussions de groupe” tous les jours.
Et contrairement à de nombreux fondateurs de fonds quantitatifs qui ont une expérience des fonds de couverture à l’étranger, Liang Wenfeng est originaire du pays et a une formation locale. Il a étudié à l’Université de Zhejiang, dans le département de génie électronique et d’intelligence artificielle.
Un certain nombre d’initiés de l’industrie et de chercheurs de DeepSeek nous ont dit que Liang Wenfeng est une personne très rare dans l’industrie chinoise de l’IA qui « possède à la fois de solides capacités d’ingénierie d’infrastructure et de recherche sur les modèles, ainsi que la capacité de mobiliser des ressources », « peut porter des jugements précis d’une hauteur et peut être plus fort que les chercheurs de première ligne dans les détails », il a une « capacité d’apprentissage terrifiante », et en même temps « pas du tout comme un patron, mais plus comme un geek ».
Il s’agit d’une interview particulièrement rare. Dans cette interview, cet idéaliste technologique offre une voix rare dans le monde de la technologie en Chine : il est l’un des rares à placer la perspective éthique avant les intérêts économiques et à nous rappeler de prendre en compte l’inertie de l’époque et de mettre l’innovation originale à l’ordre du jour.
Il y a un an, lorsque DeepSeek a fait ses débuts, nous avons eu notre première entrevue avec Liang Wenfeng : « Le carré magique fou : le parcours d’un géant invisible de l’IA ». Si à l’époque, la phrase « il est essentiel de chérir les ambitions et de rester sincère » était encore un beau slogan, un an plus tard, cela est devenu une action.
Voici la partie de la conversation suivante
**“暗涌”:Après la publication du modèle DeepSeek V2, une guerre des prix de grands modèles sanglante s’est rapidement déclenchée, certains disent que vous êtes un requin dans l’industrie.
Liang Wenfeng: Nous ne voulions pas devenir un poisson-chat, nous sommes juste devenus un poisson-chat par accident.
“Vague obscure”:ce résultat vous surprend-il ?
Liang Wenfeng: Très inattendu. Je ne m’attendais pas à ce que le prix soit si sensible pour tout le monde. Nous suivons simplement notre propre rythme et fixons les prix en fonction des coûts. Notre principe est de ne pas faire de rabais et de ne pas réaliser de profits excessifs. Ce prix est également légèrement supérieur aux coûts, avec un petit bénéfice.
**“An Yong”: 5 jours plus tard, Zhifu AI a suivi, puis ByteDance, Alibaba, Baidu, Tencent et autres grandes usines suivront.
Liang Wenfeng: L’intelligence artificielle de Zhipu est un produit de niveau débutant, et les modèles de niveau similaire sont encore très chers. ByteDance est le premier à suivre. Ils ont réduit le prix du modèle phare au même niveau que nous, ce qui a déclenché une réduction des prix par d’autres grandes entreprises. Parce que le coût des modèles des grandes entreprises est beaucoup plus élevé que le nôtre, nous ne nous attendions pas à ce que quelqu’un perde de l’argent pour faire cela, ce qui a finalement conduit à la logique de subvention brûlante de l’ère Internet.
“Dark Tide”: From an external perspective, the price reduction seems like a rush to attract users, which is typical of price wars in the Internet era.
Liang Wenfeng: Voler des utilisateurs n’est pas notre objectif principal. Nous avons réduit les prix d’une part parce que nous explorons la structure du prochain modèle, ce qui a fait baisser les coûts, et d’autre part, nous pensons que que ce soit l’API ou l’IA, tout devrait être accessible à tous et abordable pour tout le monde.
“Flux sombre” : Avant cela, la plupart des entreprises chinoises copiaient directement la structure de la génération actuelle de Llama pour développer des applications. Pourquoi avez-vous choisi de vous concentrer sur la structure du modèle ?
梁文锋:Si l’objectif est de développer des applications, il est raisonnable d’adopter la structure Llama et de lancer rapidement des produits. Cependant, notre objectif est l’AGI, ce qui signifie que nous devons étudier de nouveaux modèles structurels et améliorer les capacités des modèles avec des ressources limitées. Cela fait partie des recherches de base nécessaires pour passer à des modèles plus grands. En plus de la structure du modèle, nous avons également mené de nombreuses autres recherches, notamment sur la construction des données et sur la manière de rendre les modèles plus proches de l’humain, ce qui se reflète dans les modèles que nous avons publiés. De plus, en termes d’efficacité d’entraînement et de coût d’inférence, la structure de Llama est estimée avoir un retard de deux générations par rapport au niveau avancé à l’étranger.
“Mouvement obscur” : d’où provient principalement cet écart ?
Liang Wenfeng: Tout d’abord, il y a un écart d’efficacité d’entraînement. Nous estimons qu’il peut y avoir un double écart de niveau entre le meilleur niveau intérieur et le meilleur niveau étranger en termes de structure de modèle et de dynamique d’entraînement. Rien que pour cela, nous devons consommer deux fois plus de puissance de calcul pour obtenir le même effet. De plus, il peut également y avoir un écart d’efficacité des données, ce qui signifie que nous devons consommer deux fois plus de données d’entraînement et de puissance de calcul pour obtenir le même effet. Au total, nous devons consommer quatre fois plus de puissance de calcul. Ce que nous devons faire, c’est justement réduire constamment ces écarts.
“Afflux sombre”: Pourquoi DeepSeek choisit-il actuellement de ne faire que de la recherche et de l’exploration, alors que la plupart des entreprises chinoises choisissent à la fois le modèle et l’application ?
Liang Wenfeng: Parce que nous pensons qu’il est maintenant crucial de participer à la vague d’innovation mondiale. Au cours des dernières années, les entreprises chinoises ont pris l’habitude de laisser les autres innover sur le plan technologique, puis de l’appliquer pour la monétisation. Cependant, cela ne devrait pas être considéré comme acquis. Dans cette vague, notre point de départ n’est pas de faire de l’argent facile, mais de nous positionner à la pointe de la technologie pour promouvoir le développement de tout l’écosystème.
‘Swell’: The inertia cognition left to most people in the Internet and mobile Internet era is that the United States is good at technological innovation, while China is better at applications.
Liang Wenfeng: Nous pensons qu’avec le développement économique, la Chine doit également devenir progressivement un contributeur plutôt que de continuer à faire du stop. Au cours des trente dernières années, dans le mouvement de l’IT, nous n’avons guère participé à l’innovation technologique réelle. Nous sommes habitués à ce que la loi de Moore tombe du ciel et qu’un matériel et un logiciel meilleurs sortent de chez nous au bout de 18 mois. La loi de l’échelle est également traitée de cette manière.
Mais en réalité, c’est une communauté technologique dominée par l’Occident qui a été créée génération après génération avec diligence, simplement parce que nous n’avons pas participé à ce processus auparavant, nous en avons négligé l’existence.
« Vague sombre » : pourquoi DeepSeek V2 surprend beaucoup de personnes dans la Silicon Valley ?
Liang Wenfeng: Dans le grand nombre d’innovations qui se produisent chaque jour aux États-Unis, celle-ci est très courante. Ce qui les surprend, c’est que c’est une entreprise chinoise qui se joint à eux en tant que contributeur à l’innovation. Après tout, la plupart des entreprises chinoises ont l’habitude de suivre plutôt que d’innover.
** « Courant sous-jacent » : Mais ce choix est trop extravagant dans le contexte chinois. Le grand modèle est un jeu d’investissement lourd, et toutes les entreprises n’ont pas le capital nécessaire pour se contenter de faire de la recherche et d’innover, plutôt que de penser d’abord à la commercialisation. **
Liang Wenfeng: Le coût de l’innovation est certainement élevé, et l’inertie du passé est également liée à la situation passée où l’on s’appropriait les idées des autres. Mais maintenant, que ce soit en termes de taille de l’économie chinoise, de bénéfices des géants technologiques comme ByteDance et Tencent, ils sont tous importants à l’échelle mondiale. Ce qui nous manque en termes d’innovation n’est certainement pas le capital, mais c’est le manque de confiance et le manque de savoir comment organiser efficacement des talents à forte densité pour réaliser une innovation efficace.
“Dark Surge”: Pourquoi les entreprises chinoises - y compris les grandes usines qui ne manquent pas d’argent - considèrent-elles si facilement la commercialisation rapide comme leur priorité absolue ?
Liang Wenfeng: Au cours des trente dernières années, nous avons toujours mis l’accent sur la réalisation de profits, en ignorant l’innovation. L’innovation n’est pas entièrement motivée par les affaires, elle nécessite également de la curiosité et de la créativité. Nous avons simplement été entravés par l’inertie du passé, mais c’est également une étape.
“Flux obscur” : mais en fin de compte, vous êtes une organisation commerciale, pas une institution de recherche à but non lucratif. En choisissant l’innovation et en la partageant en open source, où est la barrière à l’entrée ? Comme l’innovation de l’architecture MLA de mai, elle sera rapidement copiée par d’autres, n’est-ce pas ?
Liang Wenfeng : Face à la technologie révolutionnaire, le fossé créé par la fermeture du code source est temporaire. Même si OpenAI ferme son code source, cela ne peut pas empêcher les autres de le rattraper. C’est pourquoi nous avons mis en valeur la valeur de l’équipe. Nos collègues ont grandi dans ce processus, accumulant beaucoup de savoir-faire, formant une organisation et une culture innovantes, c’est notre fossé de protection.
L’open source, la publication d’articles ne signifie pas vraiment une perte. Pour les professionnels de la technologie, être suivi est une source de grande satisfaction. En fait, l’open source est plus une attitude culturelle qu’une démarche commerciale. C’est en fait un honneur supplémentaire. Une entreprise le faisant aura également un attrait culturel.
‘Vague sombre’ : Que pensez-vous des points de vue des croyants du marché comme Zhu Xiaohu ?
Liang Wenfeng: Zhu Xiaohu is self-consistent, but his play is more suitable for companies that make money quickly, and if you look at the most profitable companies in the United States, they are high-tech companies with a solid foundation.
“Surge obscur” : Cependant, créer un modèle massif, une avance technologique pure ne peut pas former un avantage absolu. Qu’est-ce que vous pariez sur cette chose plus grande ?
Liáng Wénfēng: Ce que nous voyons, c’est que l’IA en Chine ne peut pas rester en position de suiveur indéfiniment. Nous disons souvent qu’il y a un écart d’un à deux ans entre l’IA en Chine et aux États-Unis, mais la véritable différence réside dans le fossé entre l’originalité et l’imitation. Si cela ne change pas, la Chine ne pourra jamais être autre qu’un suiveur, donc certaines explorations sont inévitables.
Le leadership de NVIDIA n’est pas seulement le fruit des efforts d’une seule entreprise, mais aussi le résultat des efforts conjoints de la communauté technologique et industrielle occidentale. Ils peuvent anticiper les tendances technologiques de la prochaine génération et disposent d’une feuille de route. Le développement de l’IA en Chine nécessite également un tel écosystème. Le développement de nombreux chips nationaux ne peut pas se réaliser en raison du manque d’une communauté technologique associée, ils ne disposent que de nouvelles de seconde main. C’est pourquoi la Chine a besoin de personnes à la pointe de la technologie.
**"Undercurrent » : Le DeepSeek actuel a une sorte de tempérament idéaliste dans les premiers jours d’OpenAI, et il est également open source. Choisirez-vous le code source fermé plus tard ? OpenAI et Mistral sont tous deux passés de l’open source au closed source. **
梁文锋:Nous ne serons pas fermés. Nous pensons qu’il est plus important d’avoir un écosystème technologique puissant en premier.
** ‘Flux sombre’: avez-vous un plan de financement? Selon les rapports des médias, Horizen a un plan indépendant pour faire cotiser DeepSeek, une start-up d’IA de la Silicon Valley, qui finira également par être liée à de grandes entreprises.**
Liang Wenfeng: Il n’y a pas de plan de financement à court terme, notre problème n’a jamais été l’argent, mais l’interdiction d’exportation de puces haut de gamme.
“Vague obscure” : Beaucoup de gens pensent que faire de l’AGI et faire de la quantification sont deux choses complètement différentes, la quantification peut être faite discrètement, mais l’AGI nécessite probablement un engagement plus fort, une alliance, cela peut permettre d’accroître votre investissement.
Liang Wenfeng: Plus d’investissement ne signifie pas nécessairement plus d’innovation. Sinon, les grandes entreprises pourraient s’approprier toute l’innovation.
“Vague obscure” : Vous ne développez pas d’applications maintenant parce que vous n’avez pas de gène d’exploitation ?
Liang Wenfeng : Nous pensons que cette étape est celle de l’explosion de l’innovation technologique, plutôt que celle de l’explosion de l’application. À long terme, nous espérons former un écosystème dans lequel l’industrie utilise directement notre technologie et nos résultats, et nous ne sommes responsables que du modèle de base et de l’innovation de pointe, tandis que d’autres entreprises construisent des activités toB et toC sur la base de DeepSeek. S’il est possible de former une chaîne complète de production ascendante et descendante, nous n’aurons pas besoin de développer nos propres applications. Bien sûr, si nécessaire, nous n’aurons pas de problème à développer des applications, mais la recherche et l’innovation technologique seront toujours notre priorité absolue.
“Vague”:Mais si vous choisissez une API, pourquoi choisir DeepSeek au lieu d’une grande entreprise?
Liang Wenfeng: Le monde futur pourrait très probablement être caractérisé par une division spécialisée du travail. Les grands modèles de base nécessitent une innovation continue, et les grandes entreprises ont leurs propres limites de compétence, qui ne conviennent pas nécessairement.
“Dark Tide”: Mais la technologie peut-elle vraiment faire la différence ? Vous avez également dit qu’il n’y a pas de secret technologique absolu.
Liang Wenfeng: La technologie n’a pas de secret, mais la réinitialisation nécessite du temps et des coûts. Les cartes graphiques de Nvidia, théoriquement, n’ont aucun secret technologique et sont faciles à reproduire, mais la réorganisation de l’équipe et la poursuite de la prochaine génération de technologie nécessitent du temps, donc la véritable barrière de protection reste large.
“Ondulation sombre” : Après que vous ayez baissé les prix, Byte a immédiatement suivi, ce qui montre qu’ils ressentent encore une certaine menace. Comment voyez-vous la nouvelle solution de compétition entre les start-ups et les grands fabricants ?
Liang Wenfeng: Pour être honnête, nous ne nous soucions pas vraiment de cette affaire, nous avons juste fait ça en passant. Fournir des services de cloud n’est pas notre objectif principal. Notre objectif principal est toujours de réaliser l’AGI.
Currently, no new solutions have been seen, but the big factories do not have an obvious advantage either. The big factories have existing users, but their cash flow business is also their burden, which may make them a constantly vulnerable target.
“Vague sombre”: Comment voyez-vous l’issue des six grandes sociétés de modèles d’entreprise en dehors de DeepSeek ?
梁文锋:Il peut y avoir 2 à 3 survivants. Ils sont tous actuellement dans la phase de brûler de l’argent. Ainsi, ceux qui ont une position claire et une capacité d’exploitation plus fine ont plus de chances de survivre. D’autres entreprises pourraient subir une transformation radicale. Les choses de valeur ne disparaîtront pas, mais elles changeront de forme.
« Sous le courant » : À l’ère du carré magique, l’attitude face à la concurrence est souvent jugée comme étant « intransigeante », prêtant peu d’attention aux comparaisons horizontales. En ce qui concerne la compétition, quelle est votre point de départ pour la réflexion ?
Liang Wenfeng: Ce que je pense souvent, c’est si quelque chose peut améliorer l’efficacité de fonctionnement de la société et si vous pouvez trouver une position d’expertise dans sa chaîne de division industrielle. Tant que l’objectif final est d’améliorer l’efficacité sociale, c’est justifié. Beaucoup de choses en cours sont des phases transitoires, se concentrer excessivement sur elles vous fera inévitablement perdre de vue.
“Vague obscure”: Jack Clark, ancien responsable des politiques chez OpenAI et co-fondateur d’Anthropic, estime que DeepSeek a engagé “un groupe de génies mystérieux et profonds” pour créer DeepSeek v2. Qui sont-ils ?
Liang Wenfeng: Il n’y a pas de prodiges mystérieux et profonds, ce sont tous des diplômés récents des meilleures universités, des stagiaires en doctorat qui n’ont pas encore obtenu leur diplôme, des stagiaires en quatrième et cinquième année, et quelques jeunes qui ne sont diplômés que depuis quelques années.
**“Undercurrent”: Many large model companies are persistently recruiting people overseas. Many people feel that the top 50 talents in this field may not be in Chinese companies. Where do your people come from?
Liang Wenfeng: Il n’y a personne dans le modèle V2 qui est revenu de l’étranger, ce sont tous des locaux. Les 50 premiers talents de premier plan peuvent ne pas être en Chine, mais peut-être que nous pouvons créer de tels talents nous-mêmes.
« An Yong » : Comment cette innovation MLA est-elle survenue ? J’ai entendu dire que l’idée venait à l’origine de l’intérêt personnel d’un jeune chercheur ?
Liang Wenfeng: Après avoir résumé quelques règles de changement majeures de l’architecture Attention, il a eu l’idée de concevoir une solution de rechange. Cependant, cela a été un processus long et fastidieux du concept à la réalisation. Nous avons donc formé une équipe pour cela et cela nous a pris plusieurs mois pour le faire fonctionner.
“Flux sombre” : La naissance de cette inspiration divergente est étroitement liée à la structure de votre organisation totalement novatrice. Pendant l’ère des carrés magiques, vous aviez rarement assigné des objectifs ou des tâches de haut en bas. Mais pour cette exploration de pointe AGI, qui est remplie d’incertitudes, y a-t-il plus d’actions de gestion ?
Liang Wenfeng: DeepSeek is also entirely bottom-up. And we generally do not pre-allocate tasks, but rather have a natural division of labor. Each person has their own unique growth experience and comes with their own ideas, so there is no need to push them. During the exploration process, if they encounter problems, they will naturally seek out others for discussion. However, when an idea shows potential, we will also allocate resources top-down.
“Vague sombre” : On dit que DeepSeek est très flexible pour regrouper les cartes et les personnes.
Liang Wenfeng: Il n’y a pas de limite à la façon dont chacun de nous peut mobiliser des cartes et des personnes. Si quelqu’un a une idée, chacun peut accéder aux cartes de formation à tout moment sans approbation. En même temps, étant donné qu’il n’y a pas de hiérarchie ni de départements croisés, tout le monde peut être appelé de manière flexible, tant que l’autre partie est également intéressée.
“Vague obscure” : Une méthode de gestion lâche qui dépend également de votre capacité à sélectionner un groupe de personnes passionnées et motivées. On dit que vous êtes doué pour repérer des détails et sélectionner des personnes exceptionnelles selon des critères d’évaluation non conventionnels.
Liang Wenfeng: Notre critère de sélection des personnes a toujours été l’amour et la curiosité, donc beaucoup de gens ont des expériences étranges, c’est très intéressant. Beaucoup de gens désirent faire de la recherche bien plus que l’argent.
“Vague obscure” : le transformateur est né dans le laboratoire d’IA de Google, ChatGPT est né chez OpenAI, pensez-vous que le laboratoire d’IA d’une grande entreprise et une startup ont une valeur différente pour l’innovation ?
梁文锋:Que ce soit Google Research, OpenAI ou même le laboratoire d’IA des grandes entreprises chinoises, ils ont tous une grande valeur. Et c’est finalement OpenAI qui l’a fait, c’est aussi un fait historique fortuit.
**“Vague obscure” : L’innovation est-elle aussi en grande partie une question de hasard ? Je vois que dans la rangée de salles de réunion au milieu de votre espace de travail, des portes ouvrables à volonté sont installées des deux côtés. Vos collègues disent que c’est pour laisser place au hasard. L’histoire de la naissance de transfomer implique qu’une personne passant par hasard l’a entendu, a rejoint le projet, et l’a finalement transformé en un cadre universel."
Liang Wenfeng: Je pense que l’innovation est avant tout une question de conviction. Pourquoi la Silicon Valley est-elle si innovante ? Tout d’abord, elle ose. Lorsque Chatgpt est sorti, il y avait un manque de confiance dans l’innovation de pointe dans l’ensemble du pays. Des investisseurs aux grandes entreprises, tous estimaient que l’écart était trop important et préféraient se concentrer sur les applications. Mais l’innovation nécessite avant tout de la confiance en soi. Cette confiance est généralement plus prononcée chez les jeunes.
**‘Dark Surge’: But you don’t participate in financing, rarely speak out, and definitely don’t have as much social influence as those actively financing companies. How do you ensure that DeepSeek is the top choice for those who want to build large models?
Liang Wenfeng: Parce que nous faisons la chose la plus difficile. Ce qui attire le plus les talents de haut niveau, c’est certainement la résolution des problèmes les plus difficiles du monde. En fait, les talents de premier plan en Chine sont sous-estimés. C’est parce qu’il y a trop peu d’innovations de base dans l’ensemble de la société, ce qui les empêche d’être reconnus. Ce que nous faisons est la chose la plus difficile, ce qui est attrayant pour eux.
“Swell”: La publication précédente d’OpenAI n’a pas vu l’arrivée de GPT5, ce qui a conduit de nombreuses personnes à penser que la courbe technologique ralentissait clairement et à remettre en question la loi de l’échelle. Qu’en pensez-vous?
Liang Wenfeng: Nous sommes plutôt optimistes, l’ensemble de l’industrie semble conforme aux attentes. OpenAI n’est pas non plus un dieu, il ne peut pas toujours être en tête.
“Flux Obscur”: Combien de temps pensez-vous qu’il faudra pour atteindre l’AGI? Avant de publier DeepSeek V2, vous avez publié des modèles de génération de code et de mathématiques, et êtes passé du modèle dense au MOE. Quels sont les points clés de votre feuille de route AGI?
Liang Wenfeng: peut-être dans 2 ans, 5 ans ou 10 ans, cela se réalisera de notre vivant. En ce qui concerne la feuille de route, même au sein de notre entreprise, il n’y a pas d’opinion unifiée. Mais nous avons vraiment misé sur trois directions. Le premier est les mathématiques et le code, le deuxième est multimodal, et le troisième est le langage naturel lui-même. Les mathématiques et le code sont un terrain d’essai naturel pour l’AGI, un peu comme le jeu de go, c’est un système fermé et vérifiable, et il est possible de réaliser une intelligence très élevée grâce à l’apprentissage automatique. D’autre part, il peut être nécessaire pour l’AGI de participer à l’apprentissage dans le monde réel des humains avec une approche multimodale. Nous sommes ouverts à toutes les possibilités.
**"Undercurrent » : À quoi pensez-vous que ressemblera la fin de partie du grand modèle ? **
Liang Wenfeng: Il y aura des entreprises spécialisées fournissant des modèles de base et des services de base. Il y aura une division du travail spécialisée avec une longue chaîne. Plus de personnes répondront aux besoins diversifiés de toute la société.
“Dark Surges”: Over the past year, there have been many changes in China’s large-scale model entrepreneurship. For example, Wang Huiwen, who was still active at the beginning of last year, withdrew from the midfield, and the companies that joined later also began to show differentiation.
Liang Wenfeng: Wang Huiwen took all the losses on himself and let everyone else retreat unscathed. He made a choice that was most unfavorable to himself but good for everyone, so he is very honest, and I admire him for that.
“Sous-courant”:Où concentrez-vous actuellement votre énergie ?
Liang Wenfeng: La principale énergie est consacrée à l’étude des grands modèles de la prochaine génération. Il reste encore de nombreux problèmes non résolus.
“Flux sombre”: D’autres grandes entreprises de modèles d’entreprise insistent sur le fait qu’elles doivent à la fois, après tout, la technologie ne conduira pas à un avantage permanent, il est également important de saisir la fenêtre temporelle pour transformer l’avantage technologique en produit. DeepSeek ose se concentrer sur la recherche de modèles parce que ses capacités en matière de modèles ne sont pas encore suffisantes ?
梁文锋:Toutes les routines sont le produit de la génération précédente, et elles ne sont pas forcément valables dans le futur. Discuter du modèle de profit de l’IA future avec la logique commerciale d’Internet, c’est comme discuter de General Electric et Coca-Cola lorsque Ma Huateng a fondé son entreprise. Il est très probable que ce soit une sorte de chercher l’épée devant Guan Yu.
“Vague obscure”: Dans le passé, Fantom avait une forte technologie et une forte culture de l’innovation, et sa croissance était relativement fluide. Est-ce la raison de votre optimisme ?
Liang Wenfeng: Le carré magique renforce notre confiance dans l’innovation axée sur la technologie, mais ce n’est pas toujours facile. Nous avons traversé un long processus d’accumulation. Ce que les gens voient de l’extérieur, c’est seulement une partie de ce qui s’est passé depuis 2015, mais en réalité, nous avons travaillé pendant 16 ans.
“Sous-courant” : Revenons sur le sujet de l’innovation originale. Maintenant que l’économie entre en phase de ralentissement et que le capital entre également dans une période de froid, cela aura-t-il plus d’effets inhibiteurs sur l’innovation originale ?
Liang Wenfeng: Je ne pense pas nécessairement. L’ajustement de la structure industrielle chinoise dépendra davantage de l’innovation technologique de base. Lorsque de nombreuses personnes se rendent compte que l’argent rapide gagné dans le passé vient probablement de la chance de l’époque, elles seront plus disposées à se pencher sur une véritable innovation.
“An Yong”: Alors vous êtes aussi optimiste à ce sujet ?
Liang Wenfeng: J’ai grandi dans une petite ville du Guangdong dans les années 80. Mon père était instituteur. Dans les années 90, il y avait beaucoup d’opportunités de gagner de l’argent au Guangdong. À l’époque, de nombreux parents venaient chez nous, pensant que l’éducation n’était pas importante. Mais maintenant, les mentalités ont changé. Parce qu’il est devenu plus difficile de gagner de l’argent, et même la possibilité de conduire un taxi pourrait disparaître. Le temps d’une génération a changé.
Il y aura de plus en plus d’innovations hardcore à l’avenir. Il est peut-être encore difficile à comprendre maintenant parce que toute la société a besoin d’être éduquée par les faits. Lorsque la société reconnaît les réalisations des innovateurs hardcore, les mentalités collectives changeront. Nous avons juste besoin de faits et d’un processus.