De las 7 grandes empresas emergentes en China, DeepSeek es la más discreta, pero siempre logra ser recordada de manera inesperada.
Hace un año, esta sorpresa provino del gigante de la inversión cuantitativa detrás de él, Huān Fāng, la única empresa fuera de las grandes fábricas que tenía una reserva de 10,000 chips A100. Un año después, fue esta empresa la que inició la guerra de precios de los modelos grandes en China.
En el bombardeo continuo de IA en mayo, DeepSeek se hizo famoso de la noche a la mañana. Todo comenzó con el lanzamiento de su modelo de código abierto llamado DeepSeek V2, que ofreció una relación calidad-precio sin precedentes: el costo de inferencia se redujo a solo 1 dólar por cada millón de tokens, aproximadamente un séptimo del costo de Llama3 70B y una setentaava parte del GPT-4 Turbo.
DeepSeek fue rápidamente apodado como el “Pinduoduo del mundo de la IA”, mientras que gigantes como ByteDance, Tencent, Baidu, Alibaba, entre otros, no pudieron contenerse y comenzaron a reducir los precios. Así dio inicio la batalla de precios de los grandes modelos en China.
El humo de pólvora que llena el aire en realidad oculta un hecho: a diferencia de muchas empresas grandes que queman dinero para ofrecer subsidios, DeepSeek es rentable.
Detrás de esto, DeepSeek ha innovado completamente en la arquitectura del modelo. Propone una nueva arquitectura de MLA (un nuevo mecanismo de atención potencial de múltiples cabezas), que reduce el uso de la memoria a un 5%-13% del modelo MHA más comúnmente utilizado en el pasado. Al mismo tiempo, su innovadora estructura DeepSeekMoESparse también lleva los cálculos al límite, lo que finalmente resulta en una reducción de costos.
En el Valle del Silicio, DeepSeek es conocido como la “misteriosa fuerza del Oriente”. El analista principal de SemiAnalysis cree que el artículo de investigación de DeepSeek V2 “puede ser el mejor de este año”. Andrew Carr, ex empleado de OpenAI, cree que el artículo está lleno de “sabiduría asombrosa” y ha aplicado su configuración de entrenamiento a su propio modelo. Jack Clark, ex director de política de OpenAI y cofundador de Anthropic, cree que DeepSeek “emplea a un grupo de genios muy profundos” y cree que los grandes modelos fabricados en China “serán una fuerza no se puede ignorar”, como los drones y los vehículos eléctricos.
En la ola de IA que está impulsada principalmente por el Valle del Silicio, esto es raro. Varios expertos de la industria nos dijeron que esta fuerte respuesta proviene de la innovación en la arquitectura, que es un intento raro por parte de las empresas nacionales de modelos grandes, e incluso de la plataforma global de código abierto de modelos grandes. Un investigador de IA dijo que la arquitectura de atención ha sido propuesta durante muchos años y casi no ha sido mejorada con éxito, y mucho menos verificada a gran escala. “Incluso es una idea que se cortaría cuando se toman decisiones porque la mayoría de las personas carecen de confianza”.
Por otro lado, la falta de innovación en el nivel de la arquitectura en los modelos chinos se debe en parte a la creencia de que Estados Unidos es mejor en la innovación tecnológica de 0 a 1, mientras que China se destaca en la innovación de aplicaciones de 1 a 10. Además, este tipo de innovación no es rentable: los nuevos modelos serán desarrollados en unos meses y las empresas chinas solo necesitan seguir y aplicarlos correctamente. Innovar en la estructura del modelo significa no tener un camino claro y enfrentar muchos fracasos, lo que implica un gran costo en términos de tiempo y economía.
DeepSeek es claramente un contracorriente. En medio del ruido de que la tecnología de modelos grandes inevitablemente converge y seguir es un atajo más inteligente, DeepSeek valora el valor acumulado en el “camino equivocado” y cree que los emprendedores de modelos grandes en China, además de la innovación en aplicaciones, también pueden unirse a la corriente global de innovación tecnológica.
DeepSeek’s many choices are unique. As of now, among the seven Chinese large-scale model startups, it is the only one that has abandoned the ‘both want’ route and has been focusing on research and technology, without developing any toC applications. It is also the only one that has not fully considered commercialization, firmly choosing the open source route and even has not raised any funds. These factors often make it forgotten in the market, but on the other hand, it is frequently spread by users in the community like ‘tap water’.
¿Cómo se formó DeepSeek? Entrevistamos a Liang Wenfeng, el fundador de DeepSeek que rara vez se muestra en público.
El fundador posterior a los años 80, que ha estado estudiando tecnología entre bastidores desde la era de High-Flyer, todavía continúa con su estilo discreto en la era de DeepSeek y, como todos los investigadores, “lee artículos, escribe código y participa en discusiones grupales” todos los días.
Y muchos fundadores de fondos cuantitativos tienen antecedentes en fondos de cobertura en el extranjero. A diferencia de muchos otros que provienen de diversos campos como la física y las matemáticas, Liang Wenfeng siempre ha tenido antecedentes locales. En sus primeros años, estudió en la Facultad de Ingeniería Electrónica de la Universidad de Zhejiang, con especialización en inteligencia artificial.
Varios profesionales de la industria y los investigadores de DeepSeek nos dicen que Liang Wenfeng es una persona muy rara en la actualidad en el campo de la IA en China, que tiene una “gran capacidad de ingeniería de infraestructura y la capacidad de investigación de modelos, así como recursos movilizadores”, “puede hacer juicios precisos desde una posición elevada y puede ser más fuerte que los investigadores de primera línea en los detalles”, tiene una “capacidad de aprendizaje aterradora”, y al mismo tiempo “no parece un jefe en absoluto, sino más bien un geek”.
Esta es una entrevista particularmente rara. En la entrevista, este idealista técnico proporciona un tipo de voz particularmente escasa en la comunidad tecnológica china en la actualidad: es uno de los pocos que coloca la perspectiva de la moralidad por encima de la perspectiva de los intereses, y nos recuerda la inercia de la época, poniendo en agenda la innovación original.
Hace un año, cuando DeepSeek acababa de comenzar, entrevistamos por primera vez a Liang Wenfeng: ‘El cuadrado mágico loco: el camino de un gigante invisible de IA y sus grandes modelos’. Si en ese momento la frase '‘Debe abrazar la ambición loca y ser locamente sincero’ todavía era solo un hermoso lema, un año después, se ha convertido en una acción.
La siguiente es la sección de diálogo
¿Cómo se lanzó el primer disparo en la guerra de precios?
‘Flujo oscuro’: después del lanzamiento del modelo DeepSeek V2, se desató rápidamente una feroz guerra de precios de modelos grandes. Algunos dicen que son un tiburón en la industria’.
梁文锋:No es que queramos ser un pez gato, solo que accidentalmente nos convertimos en uno.
**“Oleaje oscuro”: ¿Este resultado te sorprendió?
Liang Wenfeng: Muy sorprendente. No esperábamos que el precio fuera tan sensible para todos. Solo seguimos nuestro propio ritmo y luego calculamos el precio basado en los costos. Nuestro principio es no gastar dinero ni obtener ganancias excesivas. Este precio también tiene un pequeño margen de beneficio por encima de los costos.
‘Tidal surge’: Zhìpǔ AI will follow suit in 5 days, followed by major companies such as ByteDance, Alibaba, Baidu, Tencent, etc.
Liang Wenfeng: Zhizhi AI is an entry-level product, and models of the same level as ours are still very expensive. Byte is the first to follow. The flagship model has reduced its price to the same level as ours, triggering other major factories to reduce prices. Because the cost of models from major factories is much higher than ours, we didn’t expect anyone to lose money doing this, and it eventually became the logic of burning money subsidies in the Internet era.
‘Ola oscura’: desde el exterior, la reducción de precios se parece mucho a la adquisición de usuarios, como suele suceder en la guerra de precios de la era de Internet.
Liang Wenfeng: Atraer usuarios no es nuestro objetivo principal. Por un lado, hemos reducido los precios porque hemos reducido los costos en la exploración de la estructura del modelo de próxima generación. Por otro lado, creemos que tanto API como IA deberían ser algo asequible y accesible para todos.
**“Undercurrent”: Antes de esto, la mayoría de las empresas chinas copiaban directamente la estructura Llama de esta generación para su aplicación, ¿por qué comienzas con la estructura del modelo? **
Liang Wenfeng: Si el objetivo es desarrollar aplicaciones, entonces seguir la estructura de Llama y lanzar productos rápidamente también es una elección razonable. Pero nuestro destino es AGI, lo que significa que necesitamos investigar nuevas estructuras de modelos y lograr una capacidad de modelo más fuerte con recursos limitados. Esto es una de las investigaciones fundamentales necesarias para escalar a modelos más grandes. Además de la estructura del modelo, también hemos realizado una gran cantidad de investigaciones en otras áreas, incluyendo cómo construir datos y cómo hacer que los modelos sean más humanos, todo esto se refleja en los modelos que hemos lanzado. Además, la estructura de Llama tiene una diferencia de dos generaciones en eficiencia de entrenamiento y costo de inferencia en comparación con los niveles avanzados en el extranjero.
‘Onda oscura’: ¿De dónde proviene esta discrepancia?
梁文锋:En primer lugar, hay una brecha en la eficiencia del entrenamiento. Estimamos que, en comparación con el mejor nivel nacional, puede haber una brecha de hasta dos veces en la estructura del modelo y la dinámica del entrenamiento en comparación con el mejor nivel extranjero. Solo en este aspecto, necesitaríamos el doble de potencia de cálculo para lograr el mismo efecto. Además, también puede haber una brecha de hasta dos veces en la eficiencia de los datos, es decir, necesitaríamos el doble de datos de entrenamiento y potencia de cálculo para lograr el mismo efecto. En conjunto, necesitaríamos consumir cuatro veces más potencia de cálculo. Lo que debemos hacer es precisamente reducir continuamente estas brechas.
Por qué DeepSeek elige actualmente solo la investigación y la exploración en lugar de optar tanto por el modelo como por la aplicación, a diferencia de la mayoría de las empresas chinas que eligen ambas opciones en la actualidad.
Liang Wenfeng: Porque creemos que lo más importante ahora es participar en la ola global de innovación. En los últimos años, las empresas chinas se han acostumbrado a que otros hagan innovación tecnológica y nosotros la aplicamos para obtener beneficios, pero esto no es algo que debamos dar por sentado. En esta ola, nuestro punto de partida no es simplemente aprovechar la oportunidad para obtener ganancias, sino avanzar hacia la vanguardia tecnológica y promover el desarrollo de todo el ecosistema.
「暗涌」: La inercia cognitiva que la mayoría de las personas tienen en la era de Internet y la Internet móvil es que Estados Unidos es bueno en innovación tecnológica y China es mejor en aplicaciones.
梁文锋:Creemos que con el desarrollo económico, China también debe convertirse gradualmente en un contribuyente en lugar de seguir siendo un pasajero. En los últimos treinta años, no hemos participado en verdadera innovación tecnológica durante la ola de la informática. Nos hemos acostumbrado a la Ley de Moore cayendo del cielo, y en 18 meses en casa saldrá hardware y software mejor. La Ley de Escala también está siendo tratada de esta manera.
Pero en realidad, esto es algo que la comunidad tecnológica occidental ha creado incansablemente durante generaciones, simplemente porque no participamos en este proceso anteriormente, lo ignoramos.
La verdadera diferencia no es de uno o dos años, sino la diferencia entre la originalidad y la imitación
‘Surge oscuro’: ¿Por qué DeepSeek V2 sorprende a muchas personas en el Valle del Silicio?
Liang Wenfeng: Within the large amount of innovation that happens in the United States every day, this is a very ordinary one. The reason why they are surprised is because this is a Chinese company that, as an innovative contributor, joins their game. After all, most Chinese companies are accustomed to following rather than innovating.
“An Yong”: Pero esta opción es demasiado lujosa en el contexto chino. El gran modelo es un juego de reinversión, no todas las empresas tienen el capital para investigar solo la innovación, en lugar de considerar primero la comercialización.
梁文锋:El costo de la innovación seguramente no es bajo, y la inercia de adoptar el enfoque de ‘tomar prestado’ en el pasado también está relacionada con la situación pasada del país. Sin embargo, si observamos el tamaño de la economía china y las ganancias de gigantes como ByteDance y Tencent, veremos que no son bajos a nivel mundial. Lo que definitivamente nos falta para la innovación no es capital, sino confianza y la capacidad de organizar talento de alta densidad de manera efectiva para lograr la innovación.
‘Surge oscuro’: ¿Por qué las empresas chinas, incluidas las grandes fábricas que no carecen de dinero, consideran la comercialización rápida como la máxima prioridad tan fácilmente?
Liang Wenfeng: En los últimos treinta años, solo hemos enfatizado en ganar dinero y hemos descuidado la innovación. La innovación no es completamente impulsada por los negocios, también requiere curiosidad y deseo de crear. Solo estamos limitados por la inercia del pasado, pero también es una etapa.
“Flujo oscuro”: pero al final, ustedes son una organización comercial, no una institución de investigación sin fines de lucro. Si eligen innovar y compartir a través del código abierto, ¿dónde está su ventaja competitiva? ¿Como la innovación en la arquitectura MLA de mayo, no será rápidamente copiada por otros?
Liang Wenfeng: Ante una tecnología disruptiva, la barrera de protección formada por el código cerrado es temporal. Incluso si OpenAI cierra su código, no puede evitar ser superado por otros. Por lo tanto, depositamos nuestro valor en el equipo, nuestros colegas crecen en este proceso, acumulan mucho conocimiento y experiencia, y forman una organización y cultura innovadoras, que es nuestra barrera de protección.
La publicación de código abierto y artículos académicos no significa realmente perder nada. Para los profesionales técnicos, ser seguido es un logro significativo. De hecho, el código abierto es más como un comportamiento cultural que comercial. Ser seguido es en realidad un honor adicional. Una empresa que hace esto también puede tener un atractivo cultural.
**“暗涌”: ¿Cómo ves este tipo de puntos de vista de los creyentes del mercado similares a Zhu Xiaohu?
Liang Wenfeng: Zhu Xiaohu es coherente, pero su estrategia es más adecuada para empresas que buscan ganar dinero rápidamente, mientras que si observas las empresas de alta tecnología más rentables de los Estados Unidos, todas ellas tienen una base sólida y han acumulado experiencia durante mucho tiempo.
“Surge oscuro”: Sin embargo, construir un gran modelo, el liderazgo tecnológico puro también es difícil de convertirse en una ventaja absoluta. ¿Qué es realmente lo que estás apostando por?
梁文锋:Lo que vemos es que la IA china no puede permanecer en una posición de seguimiento para siempre. A menudo decimos que hay una brecha de uno o dos años entre la IA china y la estadounidense, pero la verdadera diferencia radica en la brecha entre la originalidad y la imitación. Si esto no cambia, China siempre será seguidora, por lo que ciertas exploraciones también son inevitables.
El liderazgo de NVIDIA no es solo el resultado de los esfuerzos de una empresa, sino también de la comunidad y la industria de la tecnología occidental. Pueden ver las tendencias tecnológicas de la próxima generación y tienen un mapa de ruta. El desarrollo de la IA en China también necesita un ecosistema similar. Muchos chips de fabricación nacional no pueden desarrollarse debido a la falta de comunidades tecnológicas complementarias. Solo tienen noticias de segunda mano. Por lo tanto, es inevitable que alguien en China se coloque en la vanguardia de la tecnología.
Más inversión no siempre significa más innovación
“暗涌”: La actual DeepSeek tiene una especie de idealismo temprano de OpenAI y también es de código abierto. ¿Elegirán cerrar el código más adelante? Tanto OpenAI como Mistral han pasado por el proceso de pasar de código abierto a cerrado.
Liang Wenfeng: No vamos a cerrar el código fuente. Creemos que es más importante tener un ecosistema tecnológico sólido.
“Surge”: ¿Tienen algún plan de financiamiento? Según informes de los medios, Fantasía tiene planes para separar y listar de forma independiente a DeepSeek. Las empresas emergentes de IA en Silicon Valley también inevitablemente se vinculan con las grandes empresas.
梁文锋:No hay planes de financiamiento a corto plazo, nuestro problema nunca ha sido el dinero, sino la prohibición de los chips de alta gama.
“Surge oscuro”: Mucha gente piensa que hacer AGI y hacer cuantitativo son dos cosas completamente diferentes. El cuantitativo se puede hacer en silencio, pero AGI puede requerir más trabajo duro y alianzas, lo que puede aumentar su inversión.
梁文锋:Más inversión no necesariamente conduce a más innovación. De lo contrario, las grandes empresas podrían acaparar toda la innovación.
‘Surge oscuro’: ¿No están desarrollando aplicaciones ahora porque les falta el gen de la gestión?
梁文锋:Creemos que la fase actual es un período de explosión de innovación tecnológica, no de aplicación. A largo plazo, esperamos formar un ecosistema en el que la industria utilice directamente nuestra tecnología y producción, y nosotros nos encarguemos solo del modelo básico y la innovación de vanguardia, y luego otras empresas construyan negocios toB y toC sobre la base de DeepSeek. Si podemos formar una cadena completa de la industria aguas arriba y aguas abajo, no necesitaremos desarrollar nuestras propias aplicaciones. Por supuesto, si es necesario, no hay obstáculos para que desarrollemos aplicaciones, pero la investigación y la innovación tecnológica siempre serán nuestra primera prioridad.
“Undercurrent”: Pero si elige API, ¿por qué elegir DeepSeek en lugar de una gran empresa?
Liang Wenfeng: Es probable que el mundo futuro sea especializado y con una división del trabajo, los grandes modelos básicos necesitan innovación continua, y las grandes fábricas tienen sus límites de capacidad y no necesariamente son adecuadas.
「Oleada oscura」: ¿Pero la tecnología realmente puede marcar la diferencia? También has dicho que no existen secretos técnicos absolutos.
梁文锋:La tecnología no tiene secretos, pero restablecerla requiere tiempo y costo. En teoría, las tarjetas gráficas de NVIDIA no tienen secretos técnicos y son fáciles de replicar, pero reorganizar equipos y ponerse al día con la próxima generación de tecnología lleva tiempo, por lo que el foso real es bastante amplio.
「暗涌」: Después de que ustedes redujeron los precios, ByteDance siguió de inmediato, lo que indica que todavía sienten cierta amenaza. ¿Cómo ve las nuevas soluciones para la competencia entre empresas emergentes y grandes empresas?
Liang Wenfeng: Para ser honesto, no nos importa mucho este asunto, solo lo hicimos de pasada. Proporcionar servicios en la nube no es nuestro objetivo principal. Nuestro objetivo sigue siendo lograr la IA Generalizada (AGI).
Actualmente no se ha visto ninguna nueva solución, pero las grandes empresas tampoco tienen una clara ventaja. Las grandes empresas tienen usuarios existentes, pero su negocio de flujo de efectivo también es una carga, lo que podría hacerlas sujetos a ser subvertidos en cualquier momento.
**“Flujo oscuro”: ¿Cómo ves el destino de las 6 grandes empresas emergentes de modelos fuera de DeepSeek?
Liang Wenfeng: Puede que solo queden de 2 a 3 empresas. Todavía están en la etapa de quemar dinero, por lo que aquellos con una autodefinición clara y una operación más refinada tienen más posibilidades de sobrevivir. Otras empresas pueden transformarse completamente. Lo que es valioso no desaparecerá, pero cambiará de forma.
**“Olas oscuras”: En la era del cuadrado mágico, la actitud hacia la competencia se evalúa como “haciendo las cosas a mi manera” y rara vez se presta atención a la comparación horizontal. ¿Cuál es el punto de partida de tu reflexión sobre la competencia?
Liáng Wénfēng: Lo que siempre me pregunto es si algo puede mejorar la eficiencia de funcionamiento de la sociedad y si puedes encontrar tu posición especializada en su cadena de producción. Siempre y cuando el objetivo final sea aumentar la eficiencia social, se considera válido. Muchos aspectos intermedios son temporales y prestarles demasiada atención solo causará confusión.
Un grupo de jóvenes haciendo cosas ‘profundas e inescrutables’
**“Anomaly”: Jack Clark, former policy director of OpenAI and co-founder of Anthropic, believes that DeepSeek has hired a “group of profound and unpredictable geniuses”. What kind of people made DeepSeek v2?
Liang Wenfeng: No hay genios misteriosos y profundos, solo son graduados recientes de algunas de las mejores universidades, practicantes de doctorado que aún no se han graduado, jóvenes que llevan solo unos pocos años después de graduarse.
**“Flujo oscuro”: Muchas grandes empresas de modelos están obsesionadas con contratar personas en el extranjero. Mucha gente piensa que los mejores talentos entre los primeros 50 de este campo pueden no estar en empresas chinas. ¿De dónde vienen sus empleados?
梁文锋:El modelo V2 no tiene personas que regresen del extranjero, todos son locales. Los 50 principales talentos pueden no estar en China, pero tal vez podamos crear a esas personas nosotros mismos.
“Surge oscuro”: ¿Cómo surgió esta innovación en MLA? ¿Se dice que la idea surgió de un interés personal de un joven investigador?
梁文锋:Después de resumir algunas leyes de cambio principales de la arquitectura de Attention, tuvo la idea de diseñar una solución alternativa. Sin embargo, desde la idea hasta la implementación, fue un proceso largo. Para esto, formamos un equipo y nos llevó varios meses hacerlo funcionar.
‘Surge oscuro’: El surgimiento de esta inspiración divergente está estrechamente relacionado con la estructura de vuestra organización altamente innovadora. En la era del cuadrado mágico, rara vez se asignaban objetivos o tareas de arriba hacia abajo. Pero, ¿este tipo de exploración fronteriza de AGI, llena de incertidumbre, requiere más acciones de gestión?
Liáng Wénfēng: DeepSeek también es completamente de abajo hacia arriba. Además, generalmente no hacemos una división previa del trabajo, sino que ocurre de forma natural. Cada persona tiene su propia experiencia de crecimiento y tiene ideas propias, no es necesario presionarlos. Durante el proceso de exploración, si encuentran problemas, ellos mismos buscarán a alguien para discutirlo. Sin embargo, cuando una idea muestra potencial, también asignaremos recursos de arriba hacia abajo.
「暗涌」:Se dice que DeepSeek es muy flexible en la recopilación de información sobre tarjetas y personas.
梁文锋:No hay límite para la movilización de tarjetas y personas para cada uno de nosotros. Si tienes una idea, cualquiera puede llamar a las tarjetas del grupo de entrenamiento en cualquier momento sin necesidad de aprobación. Además, debido a la falta de jerarquías y divisiones departamentales, también se puede llamar a todas las personas de forma flexible, siempre y cuando la otra parte también esté interesada.
‘Surge oscuro’: una forma de gestión flexible que depende de que hayas seleccionado a personas altamente motivadas. He oído que eres bueno en encontrar personas excelentes en criterios de evaluación no tradicionales a través de los detalles.
Liang Wenfeng: Nuestro criterio para seleccionar a las personas siempre ha sido el amor y la curiosidad, por lo que muchas personas tendrán algunas experiencias extrañas, que son muy interesantes. Muchas personas están mucho más ansiosas por investigar que por el dinero.
“Surgimiento oscuro”: el transformador nació en el laboratorio de IA de Google, ChatGPT nació en OpenAI, ¿qué diferencias crees que existen en el valor de la innovación entre el laboratorio de IA de una gran empresa y una empresa emergente?
梁文锋:Ya sea el laboratorio de Google, OpenAI o incluso el laboratorio de IA de las grandes empresas chinas, todos son muy valiosos. Al final, el logro de OpenAI también tiene cierta casualidad histórica.
‘Surge oscuro’: ¿La innovación es en gran medida también una cuestión de casualidad? Veo que en el centro de su área de oficinas, a ambos lados de la fila de salas de reuniones, han colocado puertas que se pueden abrir fácilmente. Sus colegas dicen que esto es dejar espacio para lo casual. En el nacimiento de Transformer, ocurrió que una persona pasó casualmente, escuchó y se unió, convirtiéndolo finalmente en un marco común.
Liang Wenfeng: Creo que la innovación es primero una cuestión de creencia. ¿Por qué Silicon Valley tiene tanto espíritu innovador? Primero es la valentía. Cuando salió Chatgpt, todo el país carecía de confianza en la innovación de vanguardia, desde inversores hasta grandes empresas, quienes pensaban que la brecha era demasiado grande y que deberían centrarse en las aplicaciones. Pero la innovación requiere confianza en sí mismo. Esta confianza suele ser más evidente en los jóvenes.
‘Surge’: But you don’t participate in financing, rarely make public statements, and definitely have less social influence than those actively financing companies. How do you ensure that DeepSeek is the preferred choice for those who want to build large models?
梁文锋:Porque estamos haciendo lo más difícil. Lo que más atrae a los mejores talentos es definitivamente resolver los problemas más difíciles del mundo. De hecho, los talentos de primera línea están subestimados en China. Debido a la escasez de innovación sólida en toda la sociedad, no tienen la oportunidad de destacar. Lo que estamos haciendo es lo más difícil, y eso es atractivo para ellos.
“Ola oscura”: la publicación anterior de OpenAI no trajo consigo a GPT5, lo que hizo que mucha gente sintiera que la curva de avance tecnológico estaba claramente desacelerando. Además, muchas personas comenzaron a cuestionar la Ley de Escalado. ¿Qué piensas al respecto?
梁文锋:Somos optimistas, toda la industria parece estar cumpliendo con las expectativas. OpenAI tampoco es un dios, no puede estar siempre a la vanguardia.
‘Surge in the Dark’: ¿Cuánto tiempo crees que tomará para que AGI se realice? Antes de lanzar DeepSeek V2, ustedes lanzaron generación de código y modelos matemáticos, y también cambiaron de un modelo denso a MOE. Entonces, ¿cuáles son las coordenadas de su mapa de ruta para AGI?
梁文锋:Puede ser 2 años, 5 años o 10 años, en cualquier caso se logrará en nuestra vida. En cuanto al plan, incluso dentro de nuestra empresa, no hay consenso. Pero hemos apostado por tres direcciones. Uno es matemáticas y código, dos es multimodal, tres es el lenguaje natural en sí. Las matemáticas y el código son el campo de pruebas natural de AGI, algo así como el juego de go, es un sistema cerrado y verificable, con la posibilidad de lograr una inteligencia muy alta a través del autoaprendizaje. Por otro lado, es posible que la multimodalidad participe en el mundo real de los humanos y sea necesaria para AGI. Mantenemos abiertas todas las posibilidades.
“Flujo oscuro”: ¿Qué aspecto crees que tendrá el gran modelo final?
Liang Wenfeng: Habrá empresas especializadas que proporcionarán modelos y servicios básicos, habrá una larga cadena de división de trabajo profesional. Más personas estarán encima para satisfacer las diversas necesidades de toda la sociedad.
Todos los trucos son producto de la generación anterior
‘Surge oscuro’: Durante el último año, ha habido muchos cambios en el emprendimiento de modelos a gran escala en China, como la salida de Wang Huiwen, que estaba muy activo al principio del año pasado, y la aparición de diferencias en las empresas que se unieron más tarde.
Liang Wenfeng: Wang Huiwen took all the losses upon herself and let everyone else go unscathed. He made a choice that was most unfavorable to himself but beneficial to everyone else, so he is a very honest person. I admire him for this.
**“Flujo oscuro”: ¿Dónde estás poniendo la mayor parte de tu energía en este momento?
梁文锋:Principalmente centrado en la investigación de modelos grandes de próxima generación. Todavía hay muchos problemas sin resolver.
‘Surge oscuro’: ¿Es porque DeepSeek todavía no tiene suficiente capacidad de modelo que se atreve a enfocarse en la investigación de modelos, a diferencia de otras grandes empresas de modelos de inicio que insisten en tener ambas cosas? Después de todo, la tecnología no garantiza una ventaja permanente, por lo que es importante aprovechar la ventana de tiempo para convertir la ventaja técnica en productos.’
Liang Wenfeng: Todas las estrategias son productos de la generación anterior, y no necesariamente serán válidas en el futuro. Discutir el modelo de negocio rentable de la IA en el futuro utilizando la lógica comercial de Internet es como discutir General Electric y Coca-Cola cuando Ma Huateng estaba comenzando su negocio. Es muy probable que sea buscar el bote donde fue arrojada la espada.
‘Surge oscuro’: En el pasado, Fantom tenía una fuerte base tecnológica e innovadora, y su crecimiento fue relativamente fluido. ¿Es esta la razón por la que eres optimista?
Liang Wenfeng: En cierto sentido, el Cuadrado Mágico ha fortalecido nuestra confianza en la innovación impulsada por la tecnología, pero no todo ha sido fácil. Hemos pasado por un largo proceso de acumulación. Lo que se ve desde fuera es solo una parte posterior a 2015, pero en realidad hemos estado trabajando durante 16 años.
‘Subcorriente’: Volviendo al tema de la innovación original. Ahora que la economía está comenzando a declinar y el capital está ingresando en un ciclo de enfriamiento, ¿esto supondrá más restricciones para la innovación original?
Liang Wenfeng: No necesariamente. El ajuste de la estructura industrial de China dependerá más de la innovación en tecnología de vanguardia. Cuando muchas personas se den cuenta de que ganar dinero rápido en el pasado probablemente fue suerte temporal, estarán más dispuestas a dedicarse a la verdadera innovación.
‘Ola oscura’: ¿Entonces también eres optimista sobre esto?
Liang Wenfeng: Crecí en una ciudad de quinta categoría en Guangdong en la década de 1980. Mi padre era maestro de escuela primaria. En la década de 1990, había muchas oportunidades de hacer dinero en Guangdong. En ese momento, muchos padres venían a mi casa, básicamente pensaban que estudiar no servía de nada. Pero ahora, al regresar, las ideas han cambiado. Debido a que ganar dinero no es tan fácil, es posible que incluso no haya oportunidades para conducir un taxi. El tiempo de una generación ha cambiado.
En el futuro habrá más y más innovación sólida. Ahora puede que no sea fácil de entender porque toda la sociedad necesita ser educada por los hechos. Cuando la sociedad permita que las personas con innovación sólida tengan éxito, cambiarán las ideas colectivas. ** Todo lo que necesitamos es un montón de hechos y un proceso. **
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Revelando DeepSeek: una historia de idealismo tecnológico chino más extrema
Autor: Yu Lili; Fuente: Waves oscuros
De las 7 grandes empresas emergentes en China, DeepSeek es la más discreta, pero siempre logra ser recordada de manera inesperada.
Hace un año, esta sorpresa provino del gigante de la inversión cuantitativa detrás de él, Huān Fāng, la única empresa fuera de las grandes fábricas que tenía una reserva de 10,000 chips A100. Un año después, fue esta empresa la que inició la guerra de precios de los modelos grandes en China.
En el bombardeo continuo de IA en mayo, DeepSeek se hizo famoso de la noche a la mañana. Todo comenzó con el lanzamiento de su modelo de código abierto llamado DeepSeek V2, que ofreció una relación calidad-precio sin precedentes: el costo de inferencia se redujo a solo 1 dólar por cada millón de tokens, aproximadamente un séptimo del costo de Llama3 70B y una setentaava parte del GPT-4 Turbo.
DeepSeek fue rápidamente apodado como el “Pinduoduo del mundo de la IA”, mientras que gigantes como ByteDance, Tencent, Baidu, Alibaba, entre otros, no pudieron contenerse y comenzaron a reducir los precios. Así dio inicio la batalla de precios de los grandes modelos en China.
El humo de pólvora que llena el aire en realidad oculta un hecho: a diferencia de muchas empresas grandes que queman dinero para ofrecer subsidios, DeepSeek es rentable.
Detrás de esto, DeepSeek ha innovado completamente en la arquitectura del modelo. Propone una nueva arquitectura de MLA (un nuevo mecanismo de atención potencial de múltiples cabezas), que reduce el uso de la memoria a un 5%-13% del modelo MHA más comúnmente utilizado en el pasado. Al mismo tiempo, su innovadora estructura DeepSeekMoESparse también lleva los cálculos al límite, lo que finalmente resulta en una reducción de costos.
En el Valle del Silicio, DeepSeek es conocido como la “misteriosa fuerza del Oriente”. El analista principal de SemiAnalysis cree que el artículo de investigación de DeepSeek V2 “puede ser el mejor de este año”. Andrew Carr, ex empleado de OpenAI, cree que el artículo está lleno de “sabiduría asombrosa” y ha aplicado su configuración de entrenamiento a su propio modelo. Jack Clark, ex director de política de OpenAI y cofundador de Anthropic, cree que DeepSeek “emplea a un grupo de genios muy profundos” y cree que los grandes modelos fabricados en China “serán una fuerza no se puede ignorar”, como los drones y los vehículos eléctricos.
En la ola de IA que está impulsada principalmente por el Valle del Silicio, esto es raro. Varios expertos de la industria nos dijeron que esta fuerte respuesta proviene de la innovación en la arquitectura, que es un intento raro por parte de las empresas nacionales de modelos grandes, e incluso de la plataforma global de código abierto de modelos grandes. Un investigador de IA dijo que la arquitectura de atención ha sido propuesta durante muchos años y casi no ha sido mejorada con éxito, y mucho menos verificada a gran escala. “Incluso es una idea que se cortaría cuando se toman decisiones porque la mayoría de las personas carecen de confianza”.
Por otro lado, la falta de innovación en el nivel de la arquitectura en los modelos chinos se debe en parte a la creencia de que Estados Unidos es mejor en la innovación tecnológica de 0 a 1, mientras que China se destaca en la innovación de aplicaciones de 1 a 10. Además, este tipo de innovación no es rentable: los nuevos modelos serán desarrollados en unos meses y las empresas chinas solo necesitan seguir y aplicarlos correctamente. Innovar en la estructura del modelo significa no tener un camino claro y enfrentar muchos fracasos, lo que implica un gran costo en términos de tiempo y economía.
DeepSeek es claramente un contracorriente. En medio del ruido de que la tecnología de modelos grandes inevitablemente converge y seguir es un atajo más inteligente, DeepSeek valora el valor acumulado en el “camino equivocado” y cree que los emprendedores de modelos grandes en China, además de la innovación en aplicaciones, también pueden unirse a la corriente global de innovación tecnológica.
DeepSeek’s many choices are unique. As of now, among the seven Chinese large-scale model startups, it is the only one that has abandoned the ‘both want’ route and has been focusing on research and technology, without developing any toC applications. It is also the only one that has not fully considered commercialization, firmly choosing the open source route and even has not raised any funds. These factors often make it forgotten in the market, but on the other hand, it is frequently spread by users in the community like ‘tap water’.
¿Cómo se formó DeepSeek? Entrevistamos a Liang Wenfeng, el fundador de DeepSeek que rara vez se muestra en público.
El fundador posterior a los años 80, que ha estado estudiando tecnología entre bastidores desde la era de High-Flyer, todavía continúa con su estilo discreto en la era de DeepSeek y, como todos los investigadores, “lee artículos, escribe código y participa en discusiones grupales” todos los días.
Y muchos fundadores de fondos cuantitativos tienen antecedentes en fondos de cobertura en el extranjero. A diferencia de muchos otros que provienen de diversos campos como la física y las matemáticas, Liang Wenfeng siempre ha tenido antecedentes locales. En sus primeros años, estudió en la Facultad de Ingeniería Electrónica de la Universidad de Zhejiang, con especialización en inteligencia artificial.
Varios profesionales de la industria y los investigadores de DeepSeek nos dicen que Liang Wenfeng es una persona muy rara en la actualidad en el campo de la IA en China, que tiene una “gran capacidad de ingeniería de infraestructura y la capacidad de investigación de modelos, así como recursos movilizadores”, “puede hacer juicios precisos desde una posición elevada y puede ser más fuerte que los investigadores de primera línea en los detalles”, tiene una “capacidad de aprendizaje aterradora”, y al mismo tiempo “no parece un jefe en absoluto, sino más bien un geek”.
Esta es una entrevista particularmente rara. En la entrevista, este idealista técnico proporciona un tipo de voz particularmente escasa en la comunidad tecnológica china en la actualidad: es uno de los pocos que coloca la perspectiva de la moralidad por encima de la perspectiva de los intereses, y nos recuerda la inercia de la época, poniendo en agenda la innovación original.
Hace un año, cuando DeepSeek acababa de comenzar, entrevistamos por primera vez a Liang Wenfeng: ‘El cuadrado mágico loco: el camino de un gigante invisible de IA y sus grandes modelos’. Si en ese momento la frase '‘Debe abrazar la ambición loca y ser locamente sincero’ todavía era solo un hermoso lema, un año después, se ha convertido en una acción.
La siguiente es la sección de diálogo
¿Cómo se lanzó el primer disparo en la guerra de precios?
‘Flujo oscuro’: después del lanzamiento del modelo DeepSeek V2, se desató rápidamente una feroz guerra de precios de modelos grandes. Algunos dicen que son un tiburón en la industria’.
梁文锋:No es que queramos ser un pez gato, solo que accidentalmente nos convertimos en uno.
**“Oleaje oscuro”: ¿Este resultado te sorprendió?
Liang Wenfeng: Muy sorprendente. No esperábamos que el precio fuera tan sensible para todos. Solo seguimos nuestro propio ritmo y luego calculamos el precio basado en los costos. Nuestro principio es no gastar dinero ni obtener ganancias excesivas. Este precio también tiene un pequeño margen de beneficio por encima de los costos.
‘Tidal surge’: Zhìpǔ AI will follow suit in 5 days, followed by major companies such as ByteDance, Alibaba, Baidu, Tencent, etc.
Liang Wenfeng: Zhizhi AI is an entry-level product, and models of the same level as ours are still very expensive. Byte is the first to follow. The flagship model has reduced its price to the same level as ours, triggering other major factories to reduce prices. Because the cost of models from major factories is much higher than ours, we didn’t expect anyone to lose money doing this, and it eventually became the logic of burning money subsidies in the Internet era.
‘Ola oscura’: desde el exterior, la reducción de precios se parece mucho a la adquisición de usuarios, como suele suceder en la guerra de precios de la era de Internet.
Liang Wenfeng: Atraer usuarios no es nuestro objetivo principal. Por un lado, hemos reducido los precios porque hemos reducido los costos en la exploración de la estructura del modelo de próxima generación. Por otro lado, creemos que tanto API como IA deberían ser algo asequible y accesible para todos.
**“Undercurrent”: Antes de esto, la mayoría de las empresas chinas copiaban directamente la estructura Llama de esta generación para su aplicación, ¿por qué comienzas con la estructura del modelo? **
Liang Wenfeng: Si el objetivo es desarrollar aplicaciones, entonces seguir la estructura de Llama y lanzar productos rápidamente también es una elección razonable. Pero nuestro destino es AGI, lo que significa que necesitamos investigar nuevas estructuras de modelos y lograr una capacidad de modelo más fuerte con recursos limitados. Esto es una de las investigaciones fundamentales necesarias para escalar a modelos más grandes. Además de la estructura del modelo, también hemos realizado una gran cantidad de investigaciones en otras áreas, incluyendo cómo construir datos y cómo hacer que los modelos sean más humanos, todo esto se refleja en los modelos que hemos lanzado. Además, la estructura de Llama tiene una diferencia de dos generaciones en eficiencia de entrenamiento y costo de inferencia en comparación con los niveles avanzados en el extranjero.
‘Onda oscura’: ¿De dónde proviene esta discrepancia?
梁文锋:En primer lugar, hay una brecha en la eficiencia del entrenamiento. Estimamos que, en comparación con el mejor nivel nacional, puede haber una brecha de hasta dos veces en la estructura del modelo y la dinámica del entrenamiento en comparación con el mejor nivel extranjero. Solo en este aspecto, necesitaríamos el doble de potencia de cálculo para lograr el mismo efecto. Además, también puede haber una brecha de hasta dos veces en la eficiencia de los datos, es decir, necesitaríamos el doble de datos de entrenamiento y potencia de cálculo para lograr el mismo efecto. En conjunto, necesitaríamos consumir cuatro veces más potencia de cálculo. Lo que debemos hacer es precisamente reducir continuamente estas brechas.
Por qué DeepSeek elige actualmente solo la investigación y la exploración en lugar de optar tanto por el modelo como por la aplicación, a diferencia de la mayoría de las empresas chinas que eligen ambas opciones en la actualidad.
Liang Wenfeng: Porque creemos que lo más importante ahora es participar en la ola global de innovación. En los últimos años, las empresas chinas se han acostumbrado a que otros hagan innovación tecnológica y nosotros la aplicamos para obtener beneficios, pero esto no es algo que debamos dar por sentado. En esta ola, nuestro punto de partida no es simplemente aprovechar la oportunidad para obtener ganancias, sino avanzar hacia la vanguardia tecnológica y promover el desarrollo de todo el ecosistema.
「暗涌」: La inercia cognitiva que la mayoría de las personas tienen en la era de Internet y la Internet móvil es que Estados Unidos es bueno en innovación tecnológica y China es mejor en aplicaciones.
梁文锋:Creemos que con el desarrollo económico, China también debe convertirse gradualmente en un contribuyente en lugar de seguir siendo un pasajero. En los últimos treinta años, no hemos participado en verdadera innovación tecnológica durante la ola de la informática. Nos hemos acostumbrado a la Ley de Moore cayendo del cielo, y en 18 meses en casa saldrá hardware y software mejor. La Ley de Escala también está siendo tratada de esta manera.
Pero en realidad, esto es algo que la comunidad tecnológica occidental ha creado incansablemente durante generaciones, simplemente porque no participamos en este proceso anteriormente, lo ignoramos.
La verdadera diferencia no es de uno o dos años, sino la diferencia entre la originalidad y la imitación
‘Surge oscuro’: ¿Por qué DeepSeek V2 sorprende a muchas personas en el Valle del Silicio?
Liang Wenfeng: Within the large amount of innovation that happens in the United States every day, this is a very ordinary one. The reason why they are surprised is because this is a Chinese company that, as an innovative contributor, joins their game. After all, most Chinese companies are accustomed to following rather than innovating.
“An Yong”: Pero esta opción es demasiado lujosa en el contexto chino. El gran modelo es un juego de reinversión, no todas las empresas tienen el capital para investigar solo la innovación, en lugar de considerar primero la comercialización.
梁文锋:El costo de la innovación seguramente no es bajo, y la inercia de adoptar el enfoque de ‘tomar prestado’ en el pasado también está relacionada con la situación pasada del país. Sin embargo, si observamos el tamaño de la economía china y las ganancias de gigantes como ByteDance y Tencent, veremos que no son bajos a nivel mundial. Lo que definitivamente nos falta para la innovación no es capital, sino confianza y la capacidad de organizar talento de alta densidad de manera efectiva para lograr la innovación.
‘Surge oscuro’: ¿Por qué las empresas chinas, incluidas las grandes fábricas que no carecen de dinero, consideran la comercialización rápida como la máxima prioridad tan fácilmente?
Liang Wenfeng: En los últimos treinta años, solo hemos enfatizado en ganar dinero y hemos descuidado la innovación. La innovación no es completamente impulsada por los negocios, también requiere curiosidad y deseo de crear. Solo estamos limitados por la inercia del pasado, pero también es una etapa.
“Flujo oscuro”: pero al final, ustedes son una organización comercial, no una institución de investigación sin fines de lucro. Si eligen innovar y compartir a través del código abierto, ¿dónde está su ventaja competitiva? ¿Como la innovación en la arquitectura MLA de mayo, no será rápidamente copiada por otros?
Liang Wenfeng: Ante una tecnología disruptiva, la barrera de protección formada por el código cerrado es temporal. Incluso si OpenAI cierra su código, no puede evitar ser superado por otros. Por lo tanto, depositamos nuestro valor en el equipo, nuestros colegas crecen en este proceso, acumulan mucho conocimiento y experiencia, y forman una organización y cultura innovadoras, que es nuestra barrera de protección.
La publicación de código abierto y artículos académicos no significa realmente perder nada. Para los profesionales técnicos, ser seguido es un logro significativo. De hecho, el código abierto es más como un comportamiento cultural que comercial. Ser seguido es en realidad un honor adicional. Una empresa que hace esto también puede tener un atractivo cultural.
**“暗涌”: ¿Cómo ves este tipo de puntos de vista de los creyentes del mercado similares a Zhu Xiaohu?
Liang Wenfeng: Zhu Xiaohu es coherente, pero su estrategia es más adecuada para empresas que buscan ganar dinero rápidamente, mientras que si observas las empresas de alta tecnología más rentables de los Estados Unidos, todas ellas tienen una base sólida y han acumulado experiencia durante mucho tiempo.
“Surge oscuro”: Sin embargo, construir un gran modelo, el liderazgo tecnológico puro también es difícil de convertirse en una ventaja absoluta. ¿Qué es realmente lo que estás apostando por?
梁文锋:Lo que vemos es que la IA china no puede permanecer en una posición de seguimiento para siempre. A menudo decimos que hay una brecha de uno o dos años entre la IA china y la estadounidense, pero la verdadera diferencia radica en la brecha entre la originalidad y la imitación. Si esto no cambia, China siempre será seguidora, por lo que ciertas exploraciones también son inevitables.
El liderazgo de NVIDIA no es solo el resultado de los esfuerzos de una empresa, sino también de la comunidad y la industria de la tecnología occidental. Pueden ver las tendencias tecnológicas de la próxima generación y tienen un mapa de ruta. El desarrollo de la IA en China también necesita un ecosistema similar. Muchos chips de fabricación nacional no pueden desarrollarse debido a la falta de comunidades tecnológicas complementarias. Solo tienen noticias de segunda mano. Por lo tanto, es inevitable que alguien en China se coloque en la vanguardia de la tecnología.
Más inversión no siempre significa más innovación
“暗涌”: La actual DeepSeek tiene una especie de idealismo temprano de OpenAI y también es de código abierto. ¿Elegirán cerrar el código más adelante? Tanto OpenAI como Mistral han pasado por el proceso de pasar de código abierto a cerrado.
Liang Wenfeng: No vamos a cerrar el código fuente. Creemos que es más importante tener un ecosistema tecnológico sólido.
“Surge”: ¿Tienen algún plan de financiamiento? Según informes de los medios, Fantasía tiene planes para separar y listar de forma independiente a DeepSeek. Las empresas emergentes de IA en Silicon Valley también inevitablemente se vinculan con las grandes empresas.
梁文锋:No hay planes de financiamiento a corto plazo, nuestro problema nunca ha sido el dinero, sino la prohibición de los chips de alta gama.
“Surge oscuro”: Mucha gente piensa que hacer AGI y hacer cuantitativo son dos cosas completamente diferentes. El cuantitativo se puede hacer en silencio, pero AGI puede requerir más trabajo duro y alianzas, lo que puede aumentar su inversión.
梁文锋:Más inversión no necesariamente conduce a más innovación. De lo contrario, las grandes empresas podrían acaparar toda la innovación.
‘Surge oscuro’: ¿No están desarrollando aplicaciones ahora porque les falta el gen de la gestión?
梁文锋:Creemos que la fase actual es un período de explosión de innovación tecnológica, no de aplicación. A largo plazo, esperamos formar un ecosistema en el que la industria utilice directamente nuestra tecnología y producción, y nosotros nos encarguemos solo del modelo básico y la innovación de vanguardia, y luego otras empresas construyan negocios toB y toC sobre la base de DeepSeek. Si podemos formar una cadena completa de la industria aguas arriba y aguas abajo, no necesitaremos desarrollar nuestras propias aplicaciones. Por supuesto, si es necesario, no hay obstáculos para que desarrollemos aplicaciones, pero la investigación y la innovación tecnológica siempre serán nuestra primera prioridad.
“Undercurrent”: Pero si elige API, ¿por qué elegir DeepSeek en lugar de una gran empresa?
Liang Wenfeng: Es probable que el mundo futuro sea especializado y con una división del trabajo, los grandes modelos básicos necesitan innovación continua, y las grandes fábricas tienen sus límites de capacidad y no necesariamente son adecuadas.
「Oleada oscura」: ¿Pero la tecnología realmente puede marcar la diferencia? También has dicho que no existen secretos técnicos absolutos.
梁文锋:La tecnología no tiene secretos, pero restablecerla requiere tiempo y costo. En teoría, las tarjetas gráficas de NVIDIA no tienen secretos técnicos y son fáciles de replicar, pero reorganizar equipos y ponerse al día con la próxima generación de tecnología lleva tiempo, por lo que el foso real es bastante amplio.
「暗涌」: Después de que ustedes redujeron los precios, ByteDance siguió de inmediato, lo que indica que todavía sienten cierta amenaza. ¿Cómo ve las nuevas soluciones para la competencia entre empresas emergentes y grandes empresas?
Liang Wenfeng: Para ser honesto, no nos importa mucho este asunto, solo lo hicimos de pasada. Proporcionar servicios en la nube no es nuestro objetivo principal. Nuestro objetivo sigue siendo lograr la IA Generalizada (AGI).
Actualmente no se ha visto ninguna nueva solución, pero las grandes empresas tampoco tienen una clara ventaja. Las grandes empresas tienen usuarios existentes, pero su negocio de flujo de efectivo también es una carga, lo que podría hacerlas sujetos a ser subvertidos en cualquier momento.
**“Flujo oscuro”: ¿Cómo ves el destino de las 6 grandes empresas emergentes de modelos fuera de DeepSeek?
Liang Wenfeng: Puede que solo queden de 2 a 3 empresas. Todavía están en la etapa de quemar dinero, por lo que aquellos con una autodefinición clara y una operación más refinada tienen más posibilidades de sobrevivir. Otras empresas pueden transformarse completamente. Lo que es valioso no desaparecerá, pero cambiará de forma.
**“Olas oscuras”: En la era del cuadrado mágico, la actitud hacia la competencia se evalúa como “haciendo las cosas a mi manera” y rara vez se presta atención a la comparación horizontal. ¿Cuál es el punto de partida de tu reflexión sobre la competencia?
Liáng Wénfēng: Lo que siempre me pregunto es si algo puede mejorar la eficiencia de funcionamiento de la sociedad y si puedes encontrar tu posición especializada en su cadena de producción. Siempre y cuando el objetivo final sea aumentar la eficiencia social, se considera válido. Muchos aspectos intermedios son temporales y prestarles demasiada atención solo causará confusión.
Un grupo de jóvenes haciendo cosas ‘profundas e inescrutables’
**“Anomaly”: Jack Clark, former policy director of OpenAI and co-founder of Anthropic, believes that DeepSeek has hired a “group of profound and unpredictable geniuses”. What kind of people made DeepSeek v2?
Liang Wenfeng: No hay genios misteriosos y profundos, solo son graduados recientes de algunas de las mejores universidades, practicantes de doctorado que aún no se han graduado, jóvenes que llevan solo unos pocos años después de graduarse.
**“Flujo oscuro”: Muchas grandes empresas de modelos están obsesionadas con contratar personas en el extranjero. Mucha gente piensa que los mejores talentos entre los primeros 50 de este campo pueden no estar en empresas chinas. ¿De dónde vienen sus empleados?
梁文锋:El modelo V2 no tiene personas que regresen del extranjero, todos son locales. Los 50 principales talentos pueden no estar en China, pero tal vez podamos crear a esas personas nosotros mismos.
“Surge oscuro”: ¿Cómo surgió esta innovación en MLA? ¿Se dice que la idea surgió de un interés personal de un joven investigador?
梁文锋:Después de resumir algunas leyes de cambio principales de la arquitectura de Attention, tuvo la idea de diseñar una solución alternativa. Sin embargo, desde la idea hasta la implementación, fue un proceso largo. Para esto, formamos un equipo y nos llevó varios meses hacerlo funcionar.
‘Surge oscuro’: El surgimiento de esta inspiración divergente está estrechamente relacionado con la estructura de vuestra organización altamente innovadora. En la era del cuadrado mágico, rara vez se asignaban objetivos o tareas de arriba hacia abajo. Pero, ¿este tipo de exploración fronteriza de AGI, llena de incertidumbre, requiere más acciones de gestión?
Liáng Wénfēng: DeepSeek también es completamente de abajo hacia arriba. Además, generalmente no hacemos una división previa del trabajo, sino que ocurre de forma natural. Cada persona tiene su propia experiencia de crecimiento y tiene ideas propias, no es necesario presionarlos. Durante el proceso de exploración, si encuentran problemas, ellos mismos buscarán a alguien para discutirlo. Sin embargo, cuando una idea muestra potencial, también asignaremos recursos de arriba hacia abajo.
「暗涌」:Se dice que DeepSeek es muy flexible en la recopilación de información sobre tarjetas y personas.
梁文锋:No hay límite para la movilización de tarjetas y personas para cada uno de nosotros. Si tienes una idea, cualquiera puede llamar a las tarjetas del grupo de entrenamiento en cualquier momento sin necesidad de aprobación. Además, debido a la falta de jerarquías y divisiones departamentales, también se puede llamar a todas las personas de forma flexible, siempre y cuando la otra parte también esté interesada.
‘Surge oscuro’: una forma de gestión flexible que depende de que hayas seleccionado a personas altamente motivadas. He oído que eres bueno en encontrar personas excelentes en criterios de evaluación no tradicionales a través de los detalles.
Liang Wenfeng: Nuestro criterio para seleccionar a las personas siempre ha sido el amor y la curiosidad, por lo que muchas personas tendrán algunas experiencias extrañas, que son muy interesantes. Muchas personas están mucho más ansiosas por investigar que por el dinero.
“Surgimiento oscuro”: el transformador nació en el laboratorio de IA de Google, ChatGPT nació en OpenAI, ¿qué diferencias crees que existen en el valor de la innovación entre el laboratorio de IA de una gran empresa y una empresa emergente?
梁文锋:Ya sea el laboratorio de Google, OpenAI o incluso el laboratorio de IA de las grandes empresas chinas, todos son muy valiosos. Al final, el logro de OpenAI también tiene cierta casualidad histórica.
‘Surge oscuro’: ¿La innovación es en gran medida también una cuestión de casualidad? Veo que en el centro de su área de oficinas, a ambos lados de la fila de salas de reuniones, han colocado puertas que se pueden abrir fácilmente. Sus colegas dicen que esto es dejar espacio para lo casual. En el nacimiento de Transformer, ocurrió que una persona pasó casualmente, escuchó y se unió, convirtiéndolo finalmente en un marco común.
Liang Wenfeng: Creo que la innovación es primero una cuestión de creencia. ¿Por qué Silicon Valley tiene tanto espíritu innovador? Primero es la valentía. Cuando salió Chatgpt, todo el país carecía de confianza en la innovación de vanguardia, desde inversores hasta grandes empresas, quienes pensaban que la brecha era demasiado grande y que deberían centrarse en las aplicaciones. Pero la innovación requiere confianza en sí mismo. Esta confianza suele ser más evidente en los jóvenes.
‘Surge’: But you don’t participate in financing, rarely make public statements, and definitely have less social influence than those actively financing companies. How do you ensure that DeepSeek is the preferred choice for those who want to build large models?
梁文锋:Porque estamos haciendo lo más difícil. Lo que más atrae a los mejores talentos es definitivamente resolver los problemas más difíciles del mundo. De hecho, los talentos de primera línea están subestimados en China. Debido a la escasez de innovación sólida en toda la sociedad, no tienen la oportunidad de destacar. Lo que estamos haciendo es lo más difícil, y eso es atractivo para ellos.
“Ola oscura”: la publicación anterior de OpenAI no trajo consigo a GPT5, lo que hizo que mucha gente sintiera que la curva de avance tecnológico estaba claramente desacelerando. Además, muchas personas comenzaron a cuestionar la Ley de Escalado. ¿Qué piensas al respecto?
梁文锋:Somos optimistas, toda la industria parece estar cumpliendo con las expectativas. OpenAI tampoco es un dios, no puede estar siempre a la vanguardia.
‘Surge in the Dark’: ¿Cuánto tiempo crees que tomará para que AGI se realice? Antes de lanzar DeepSeek V2, ustedes lanzaron generación de código y modelos matemáticos, y también cambiaron de un modelo denso a MOE. Entonces, ¿cuáles son las coordenadas de su mapa de ruta para AGI?
梁文锋:Puede ser 2 años, 5 años o 10 años, en cualquier caso se logrará en nuestra vida. En cuanto al plan, incluso dentro de nuestra empresa, no hay consenso. Pero hemos apostado por tres direcciones. Uno es matemáticas y código, dos es multimodal, tres es el lenguaje natural en sí. Las matemáticas y el código son el campo de pruebas natural de AGI, algo así como el juego de go, es un sistema cerrado y verificable, con la posibilidad de lograr una inteligencia muy alta a través del autoaprendizaje. Por otro lado, es posible que la multimodalidad participe en el mundo real de los humanos y sea necesaria para AGI. Mantenemos abiertas todas las posibilidades.
“Flujo oscuro”: ¿Qué aspecto crees que tendrá el gran modelo final?
Liang Wenfeng: Habrá empresas especializadas que proporcionarán modelos y servicios básicos, habrá una larga cadena de división de trabajo profesional. Más personas estarán encima para satisfacer las diversas necesidades de toda la sociedad.
Todos los trucos son producto de la generación anterior
‘Surge oscuro’: Durante el último año, ha habido muchos cambios en el emprendimiento de modelos a gran escala en China, como la salida de Wang Huiwen, que estaba muy activo al principio del año pasado, y la aparición de diferencias en las empresas que se unieron más tarde.
Liang Wenfeng: Wang Huiwen took all the losses upon herself and let everyone else go unscathed. He made a choice that was most unfavorable to himself but beneficial to everyone else, so he is a very honest person. I admire him for this.
**“Flujo oscuro”: ¿Dónde estás poniendo la mayor parte de tu energía en este momento?
梁文锋:Principalmente centrado en la investigación de modelos grandes de próxima generación. Todavía hay muchos problemas sin resolver.
‘Surge oscuro’: ¿Es porque DeepSeek todavía no tiene suficiente capacidad de modelo que se atreve a enfocarse en la investigación de modelos, a diferencia de otras grandes empresas de modelos de inicio que insisten en tener ambas cosas? Después de todo, la tecnología no garantiza una ventaja permanente, por lo que es importante aprovechar la ventana de tiempo para convertir la ventaja técnica en productos.’
Liang Wenfeng: Todas las estrategias son productos de la generación anterior, y no necesariamente serán válidas en el futuro. Discutir el modelo de negocio rentable de la IA en el futuro utilizando la lógica comercial de Internet es como discutir General Electric y Coca-Cola cuando Ma Huateng estaba comenzando su negocio. Es muy probable que sea buscar el bote donde fue arrojada la espada.
‘Surge oscuro’: En el pasado, Fantom tenía una fuerte base tecnológica e innovadora, y su crecimiento fue relativamente fluido. ¿Es esta la razón por la que eres optimista?
Liang Wenfeng: En cierto sentido, el Cuadrado Mágico ha fortalecido nuestra confianza en la innovación impulsada por la tecnología, pero no todo ha sido fácil. Hemos pasado por un largo proceso de acumulación. Lo que se ve desde fuera es solo una parte posterior a 2015, pero en realidad hemos estado trabajando durante 16 años.
‘Subcorriente’: Volviendo al tema de la innovación original. Ahora que la economía está comenzando a declinar y el capital está ingresando en un ciclo de enfriamiento, ¿esto supondrá más restricciones para la innovación original?
Liang Wenfeng: No necesariamente. El ajuste de la estructura industrial de China dependerá más de la innovación en tecnología de vanguardia. Cuando muchas personas se den cuenta de que ganar dinero rápido en el pasado probablemente fue suerte temporal, estarán más dispuestas a dedicarse a la verdadera innovación.
‘Ola oscura’: ¿Entonces también eres optimista sobre esto?
Liang Wenfeng: Crecí en una ciudad de quinta categoría en Guangdong en la década de 1980. Mi padre era maestro de escuela primaria. En la década de 1990, había muchas oportunidades de hacer dinero en Guangdong. En ese momento, muchos padres venían a mi casa, básicamente pensaban que estudiar no servía de nada. Pero ahora, al regresar, las ideas han cambiado. Debido a que ganar dinero no es tan fácil, es posible que incluso no haya oportunidades para conducir un taxi. El tiempo de una generación ha cambiado.
En el futuro habrá más y más innovación sólida. Ahora puede que no sea fácil de entender porque toda la sociedad necesita ser educada por los hechos. Cuando la sociedad permita que las personas con innovación sólida tengan éxito, cambiarán las ideas colectivas. ** Todo lo que necesitamos es un montón de hechos y un proceso. **