Розкриття секретів DeepSeek: історія більш екстремального китайського технологічного ідеалізму

金色财经_

2025-01-27 13:39:49

Автор: Ю Лілі; Джерело: Dark Waves****

Серед семи великих модельних стартапів в Китаї DeepSeek (Глибокий Пошук) є найтихіше, але завжди запам’ятовується людям несподіваним чином.

Рік тому це непередбачуване було викликано квантовими приватними фондами, що стояли за ним, і було єдиною компанією поза великим заводом, яка мала запаси в 10 тисяч чіпів A100; через рік саме від нього почалася цінова битва за великі моделі в Китаї.

У травні, коли нас постійно бомбили штучним інтелектом, DeepSeek раптово став відомим. Все почалося з їх випущенням відкритої моделі під назвою DeepSeek V2, яка забезпечує безпрецедентне співвідношення ціни та якості: витрати на мільйон токенів склали всього 1 долар, що приблизно дорівнює сьомій частині вартості Llama3 70B і сімдесятій частині GPT-4 Turbo.

DeepSeek швидко отримала прізвисько «AI-версія Pinduoduo», в той же час Byte, Tencent, Baidu, Alibaba та інші компанії також не можуть стриматися і почали знижувати ціни. Війна цін за великі моделі в Китаї наближається до початку.

Помітний дим приховує факт, що DeepSeek відрізняється від багатьох великих підприємств, які спонсоруються грошима, оскільки у нього є прибуток.

За цим стоїть повний інновацій DeepSeek у моделі архітектури. Він пропонує зовсім нову архітектуру MLA (новий багатоголовий потенційний механізм уваги), яка знизила обсяг пам’яті до 5%-13% найбільш поширеної архітектури MHA в минулому, а його унікальна структура DeepSeekMoESparse також довела обчислювальну потужність до крайнощів, що в кінцевому підсумку призвело до зниження витрат.

У Силіконовій долині DeepSeek відома як “таємнича східна сила”. Головний аналітик SemiAnalysis вважає, що стаття DeepSeek V2 “можливо, найкраща цього року”. Екс-співробітник OpenAI Ендрю Карр вважає, що стаття містить “дивовижну мудрість” і застосував її налаштування навчання до своєї моделі. А екс-керівник OpenAI з питань політики та співзасновник Anthropic Джек Кларк вважає, що DeepSeek “найняла групу проникливих геніїв” і що китайські великі моделі “стають важливою силою, якої не можна ігнорувати”, так само як безпілотні літальні апарати та електромобілі.

У хвилю хвильової руйнівної хвилі штучного інтелекту, яка в основному розгортається від Силіконової долини, це рідкісний випадок. Кілька фахівців розповіли нам, що ця сильна реакція виникає від інновацій на рівні архітектури, що є рідкісним спробою вітчизняних великих модельних компаній та всесвітніх відкритих основних моделей. Один дослідник з штучного інтелекту заявив, що протягом багатьох років архітектура уваги практично не була успішно змінена, не кажучи вже про масштабну перевірку. “Це навіть думка, яку люди мають, коли приймають рішення, оскільки більшість людей відчувають відсутність впевненості”.

З іншого боку, національні великі моделі рідко займалися інноваціями на рівні архітектури, також через те, що мало хто добровільно ламав такий усталений стереотип: США краще вміє здійснювати технічні інновації від 0 до 1, тоді як Китай краще вміє здійснювати інновації застосувань від 1 до 10. Крім того, така поведінка є дуже невигідною - нове покоління моделей буде створено через кілька місяців, китайським компаніям лише слід слідувати за цим та вдосконалювати застосування. Інновації в структурі моделей означають відсутність шляху, через що доведеться зазнати багато невдач, витрати часу та економічні витрати будуть величезні.

DeepSeek, очевидно, є ворожим. У шумі великої техніки, де вважають, що використання є більш розумним шляхом, DeepSeek вважає, що вартість накопичується на “кривих шляхах”, і вважає, що китайські підприємці в галузі великих моделей можуть приєднатися до світового потоку технічних інновацій, крім застосування новацій.

Багато рішень DeepSeek є унікальними. Наразі серед 7 великих китайських стартапів з великими моделями він єдиний, хто відмовився від стратегії ‘або-або’, і до цього часу він фокусується лише на дослідженнях та технологіях, не розвиваючи застосунки для користувачів, і єдиний, хто не розглядає повноцінно комерціалізацію, рішуче обравши відкрите напрямок, навіть не залучавши інвестицій. Це призводить до того, що його часто забувають на столом для гри, але з іншого боку, він часто поширюється в спільноті користувачів як ‘вода з-під крана’.

DeepSeek яким чином створюється? Ми поспілкувалися з мало відомим засновником DeepSeek Лян Венфеном, щоб дізнатися про це.

Цей засновник, який вже з часів епохи “магічних квадратів” глибоко вивчав технології, в епоху DeepSeek продовжує свій скромний стиль життя, як і всі дослідники, щодня “читає статті, пише код, бере участь у дискусіях групи”.

Разом із багатьма засновниками квантових фондів мав досвід роботи в закордонних хедж-фондах, але відрізняється тим, що Лян Венфен завжди мав місцеву освіту і вивчав штучний інтелект на факультеті електронної інженерії Зеджианського університету.

Низка інсайдерів галузі та дослідників DeepSeek розповіли нам, що Лян Веньфен є дуже рідкісною людиною в індустрії штучного інтелекту Китаю, яка «має як сильні інфраструктурні інженерні можливості, так і можливості дослідження моделей, а також здатність мобілізувати ресурси», «може робити точні судження з висоти, і може бути сильнішим за передових дослідників у деталях», він має «жахливу здатність до навчання», і в той же час «зовсім не як бос, а більше як гік».

Це особливо рідкісне інтерв’ю. В інтерв’ю цей технічний ідеаліст надав голос, якого зараз особливо мало в науково-технічній галузі Китаю: ** Він один з небагатьох людей, які ставлять «погляд на добро і зло» вище «погляду інтересів» і нагадує нам, що потрібно бачити інерцію часу і ставити «оригінальні інновації» на порядок денний. **

Рік тому, коли DeepSeek тільки з’явився, ми вперше зустрілись з Лян Веньфеном: «Божевільні головоломки: шлях невидимого гіганта ШІ до великої моделі». Якщо тоді фраза «Обов’язково обіймайте амбіції, а також бути безумовно щирим» ще була красивим гаслом, то за рік вона стала дієвістю.

Нижче наведено частину розмови

Як розпочалася перша війна цін?

**“Темна хвиля”: Після випуску моделі DeepSeek V2 відразу спалахнула велика війна цін на великі моделі, кажуть, ви - один з гігантів галузі.

梁文锋：мы не намеревались стать сомом, просто случайно стали сомом.

«Туманність»: Чи вас цей результат здивував?

Лян Веньфен: Дуже несподівано. Я не очікував, що ціна так чутливо сприйматиметься людьми. Ми лише йдемо своїм шляхом і визначаємо ціни, виходячи з розрахунків витрат. Нашим принципом є не втрачати гроші і не заробляти надмірного прибутку. Ця ціна також містить невеликий прибуток вище витрат.

**“Прихований потік”: через 5 днів долучиться штучний інтелект Інтелектуальної картини, а потім такі великі заводи, як ByteDance, Alibaba, Baidu, Tencent та інші."

Лянг Веньфен：Штучний інтелект Жипу - це продукт початкового рівня, а наші колеги все ще дорого вимагають за свої моделі. Байт - справжній перший, хто пішов у ногу. Флагманська модель впала до ціни, як у нас, і тоді вона викликала зниження цін у інших великих виробників. Оскільки вартість моделей великих виробників набагато вища, ніж у нас, ми не очікували, що хтось збиткує з цього, і в результаті це перетворилося на логіку інтернет-епохи з витратами на субсидії.

«Аномальне зростання»: зовні це дуже нагадує залучення користувачів за допомогою знижок, так зазвичай відбуваються цінові війни в інтернет-ері.

Лян Вэнфэн: Захоплення користувачів не є нашою основною метою. Ми знизили ціну, з одного боку, через те, що в процесі дослідження структури наступного покоління наші витрати зменшилися, з іншого боку, ми вважаємо, що як API, так і AI, повинні бути доступними для всіх і кожен може дозволити собі.

**“Темний потік”: До цього більшість китайських компаній просто копіювали структуру Llama цього покоління для застосування. Чому ви вирішили зосередитися на структурі моделі?

Лян Веньфен：Якщо мета - створення додатків, то використання структури Llama та швидке впровадження продукту є раціональним вибором. Але наша мета - це ШІ, що означає, що нам потрібно досліджувати нову модельну структуру, щоб з обмеженими ресурсами досягти більшої потужності моделі. Це один з базових досліджень, необхідних для масштабування до більших моделей. Окрім структури моделі, ми також проводили багато інших досліджень, включаючи те, як конструювати дані, як зробити модель більш схожою на людину, це все відображено у моделях, які ми випустили. Крім того, структура Llama, ймовірно, має дві покоління відставання в ефективності навчання та вартості міркування порівняно з передовими закордонними рівнями.

“Темний підйом”: Звідки походить ця дисперсія?

Лян Веньфэн: насамперед ефективність навчання відрізняється. Ми припускаємо, що найкращий внутрішній рівень у порівнянні з кращим за кордоном може мати вдвічі меншу структуру моделі та динаміку навчання, тільки на цьому ми мусимо витратити подвійну величину обчислювальної потужності для досягнення такого ж ефекту. Крім того, ефективність даних може мати також вдвічі менший рівень, тобто нам потрібно витратити подвійний обсяг тренувальних даних та обчислювальної потужності, щоб досягти такого ж ефекту. Всього це вимагатиме чотириразово більше обчислювальної потужності. Ми маємо робити саме це: безперервно зменшувати ці різниці.

“Темний потік”: Більшість китайських компаній вибирають модель та застосунок, чому DeepSeek наразі вибирає лише дослідження й дослідження?

Liang Wenfeng: Тому що ми вважаємо, що найважливіше зараз - взяти участь у глобальному хвилі інновацій. Протягом багатьох років китайські компанії звикли до того, що інші роблять технологічні інновації, а ми використовуємо їх для створення прикладних програм. Але це не є само собою зрозумілим. У цій хвилі ми маємо почати не з того, щоб заробити грошей, а з того, щоб бути на передовій технологічного розвитку та сприяти розвитку всього екосистеми.

**“Темні потоки”: у більшості людей залишилася інерційна уява про те, що в інтернеті та мобільному інтернеті США володіємо технічними інноваціями, а Китай - застосуваннями.

Лян Вэнфэн: Ми вважаємо, що з розвитком економіки Китай також має поступово стати внескодавачем, а не постійно їздити даремно. За останні тридцять років в хвилях ІТ-індустрії ми майже не приймали участь у справжній технологічній інновації. Ми вже звикли до того, що закон Мура приходить з неба, і через 18 місяців у нас з’являється кращий апаратний та програмний забезпечення. З Scaling Law також поводяться таким чином.

Але, власне, це створене покоління за поколінням запальних технічних спільнот, очолюваних заходами, просто тому, що раніше ми не приєдналися до цього процесу, ми ігнорували його існування.

Справжній розрив не полягає у рік або два, а в різниці між оригіналом та імітацією

**“Темное течение”: Чому DeepSeek V2 здивує багатьох у Силіконовій долині?

Лян Веньфен: серед великої кількості інновацій, які відбуваються щодня в США, це є дуже звичайним. Їх здивувало те, що це китайська компанія, яка виступає у ролі інноваційного учасника, що приєднується до їх гри. Все-таки більшість китайських компаній звикли наслідувати, а не інновувати.

「Аньчун」: але такий вибір в контексті китайської мови є занадто розкішним. Велика модель - це гра з великими витратами, не всі компанії мають капітал, щоб займатися лише дослідженням інновацій, а не спочатку думати про комерціалізацію.

Лян Веньфэн: Витрати на інновації, безумовно, не низькі, і це пов’язано з інерцією минулої галузі та національною ситуацією в минулому. Але зараз, якщо подивитися на обсяг китайської економіки, або прибутки компаній типу Byte і Tencent, то вони навіть на глобальному рівні не є низькими. Те, що нам не вистачає для інновацій, безумовно, це не капітал, а відсутність впевненості та незнання того, як організувати ефективну інноваційну роботу з високою щільністю персоналу.

**«Темні потоки»: чому китайські компанії, включаючи великі підприємства, яким не бракує коштів, так легко ставлять комерціалізацію на перше місце?

Лян Веньфен: протягом останніх тридцяти років ми лише підкреслювали заробіток, інновації були ігноровані. Інновації не повністю комерційно зумовлені, вони потребують також цікавості та творчого бажання. Ми лише були обмежені тим інерційним станом минулого, але це також є етапним.

「Темний потік」: але ви, власне, комерційна організація, а не благодійна науково-дослідна установа, вибираєте інновації, а потім поширюєте їх через відкрите джерело. Де ж тоді буде формуватися оборонний ров? Наприклад, інновації в архітектурі MLA цього травня будуть швидко скопійовані іншими компаніями, чи не так?

** Liang Wenfeng **: Перед революційною технологією стіни, сформовані закритим кодом, є тимчасовими. Навіть якщо OpenAI закриється, це не зможе запобігти наздогнати їх. ** Тому ми зосереджуємося на створенні цінностей у команді, наші колеги розвиваються в процесі, накопичують багато знань, створюють інноваційну організацію та культуру, це наші стіни. **

Відкритий код, публікація наукових статей, насправді нічого не втрачає. Для технічних спеціалістів бути підписаним - це дуже досягнення. Фактично, відкритий код більше схожий на культурну поведінку, а не комерційну. Дійсно, це додаткова честь. Такий підхід також може мати культурну привабливість для компанії.

“Поток темноты”: Як ви ставитеся до таких ринкових вірогідних переконань, як у Чжу Сяоху?

Лян Веньфен: Чжу Сяоху дійсно самодостатній, але його метод гри більше підходить для компаній, які швидко заробляють гроші, а коли ви дивитеся на найбільш прибуткові компанії у США, це в основному високотехнологічні компанії з густою накопиченою базою.

“Темний потік”: але створити велику модель, просто мати технічне перевагу, також важко сформувати абсолютну перевагу. Що саме ви ставите на те, що є ще більшим?

Liang Wenfeng: Ми бачимо, що китайське AI ніколи не може перебувати в режимі слідування. Ми часто кажемо, що між китайським AI і американським є різниця в один-два роки, але справжня розрив полягає в різниці між оригіналом і копією. Якщо це не зміниться, Китай завжди буде лише слідувачем, тому деякі дослідження також неможливі.

Лідерство NVIDIA - це не лише зусилля компанії, а й результат спільних зусиль західної технічної спільноти та промисловості. Вони бачать тенденції наступного покоління технологій та мають карту маршрутів. Розвиток штучного інтелекту в Китаї також потребує такого екосистеми. Багато вітчизняних кристалів не зможуть розвиватися через відсутність відповідної технічної спільноти, вони отримують тільки другорядну інформацію, тому Китаю обов’язково потрібно мати експертів на передовій техніки.

Більше інвестицій не завжди призводить до більшої інноваційності

«Темний потік»: У сучасному DeepSeek є певна ідеалістична тенденція OpenAI на початкових етапах, він також є відкритим. Ви плануєте змінити його на закрите програмне забезпечення? У OpenAI та Mistral були переходи від відкритого до закритого джерела.

Лян Вэнфэн: Ми не будемо закривати вихідний код. Ми вважаємо, що спочатку потрібно мати потужну технологічну екосистему.

**“Темний потік”: У вас є плани залучення фінансування? За даними засобів масової інформації, фонд DeepSeek має плани незалежного розподілу на біржі, американська компанія зі штаб-квартирою у Силіконовій долині, в кінцевому підсумку, також не може уникнути пов’язування з великими компаніями."

Лян Веньфен: У найближчий час немає планів щодо фінансування, наша проблема ніколи не була грошима, але заборонення поставок високопродуктивних чіпів.

«Темний потік»: Багато людей вважають, що робота з АГІ і квантовими технологіями - це абсолютно різні речі. Квантові технології можна робити тихо, але для роботи з АГІ, можливо, потрібно об’єднатися, щоб збільшити свої вклади.

Лян Веньфен：Більше інвестицій не завжди призводить до більшої інноваційності. В іншому випадку великі заводи можуть захопити всі інновації.

**“Темні потоки”: ви зараз не робите застосунок через відсутність генетики управління?

Liáng Wénfēng: Ми вважаємо, що поточний етап - це період вибуху технологічних інновацій, а не вибуху застосування. На довгий термін ми сподіваємося створити екосистему, в якій галузь безпосередньо використовуватиме нашу технологію та результати, а ми будемо відповідати за основну модель і передові інновації, а інші компанії будуть будувати бізнес на базі DeepSeek для підприємств (toB) та споживачів (toC). Якщо вдасться створити повний промисловий ланцюжок, нам не потрібно буде самим розробляти застосунки. Звичайно, якщо буде потреба, ми також можемо розробляти застосунки, але дослідження та технологічна інновація завжди будуть нашим першим пріоритетом.

**«Потайний потік»: якщо обрати API, чому обрати DeepSeek, а не великий завод?

Лян Веньфен: Майбутній світ, ймовірно, буде спеціалізованим, з необхідністю постійного інноваційного розвитку великих базових моделей; великі підприємства мають свої межі можливостей і не завжди підходять.

«Темні потоки»: але чи дійсно технології можуть змінити карту? Ти також казав, що абсолютної технічної таємниці не існує.

Liang Wenfeng: Технологія не має секретів, але скидання вимагає часу та витрат. Графічні процесори NVIDIA, в теорії, не мають жодних технологічних секретів і легко копіюються, але переорганізація команди та нагнітає наступне покоління технологій вимагає часу, тому фактичний захист все ще забезпечується ширмою.

**「Аномальний наплив」: Після зниження вартості ви, перші, підписали контракт, що свідчить про те, що вони все ще відчувають певну загрозу. Як ви вважаєте, які є нові рішення для конкуренції між стартапами та великими компаніями?

Лян Веньфен: Честно кажучи, нам не дуже цікаво це питання, ми просто випадково зробили це. Надання хмарних послуг не є нашою основною метою. Нашою метою є досягнення AGI.

Наразі не бачено жодного нового рішення, але великі компанії також не мають явної переваги. У великих компаній є готові користувачі, але їхні грошові потоки також стають їхньою тягарем і зроблять їх постійною ціллю для перевертнів.

**「Аномальний наплив」: як ви бачите кінцеву гру 6 великих стартапів з великими моделями поза DeepSeek?

Лян Веньфен: можливо, що залишиться 2-3 компанії. Зараз всі ще знаходяться на етапі спалювання грошей, тому ті, які чітко визначили своє положення і можуть більш детально управляти, мають більше шансів вижити. Інші компанії, можливо, зазнають революції. Цінне не зникне, але змінить свою форму.

«Аньюн»: у епоху головоломок, ставлення до конкуренції оцінюється як «я роблю своє», мало звертаючи увагу на бічні порівняння. Щодо конкуренції, з якого пункту виходу ви думаєте?

** Liang Wenfeng **: Я часто задумываюсь о том, может ли что-то повысить эффективность функционирования общества, и можете ли вы найти свою сильную сторону в цепочке деловой деятельности этого предмета. Если конечная цель - повышение общественной эффективности, то это оправдано. Многое из этого является временным, чрезмерное внимание к этому неизбежно вызывает замешательство.

Група молодих людей, що займаються “невловимим” ділом

“Підступне виринає”: Джек Кларк, колишній керівник політики OpenAI та співзасновник Anthropic, вважає, що DeepSeek найняла “групу загадкових геніїв”, які створили DeepSeek v2. Хто ці люди?"

Liang Wenfeng: Немає жодних глибоких геніїв, це всього лише випускники кращих університетів, незакінчені доктори четвертого і п’ятого року, стажери, а також молоді люди, які закінчили недавно.

«Підводний потік»: багато великих компаній, що працюють з великими моделями, настійно шукають спеціалістів за кордоном. Багато людей вважають, що топ-50 фахівців в цій галузі можливо не працюють у китайських компаніях. Звідки ви берете своїх співробітників?

Ліан Веньфен: Модель V2 не має людей, які повернулися з-за кордону, всі вони місцеві. Перші 50 кращих талантів можуть бути не в Китаї, але можливо ми зможемо самі створити таких людей.

«Аньєн»: Як сталося це інноваційне MLA? Чула, що ідея спочатку виникла з особистого інтересу молодого дослідника?

Лян Веньфен: Після узагальнення деяких основних законів зміни уваги він раптово прийшов до висновку, що потрібно розробити альтернативний план. Але від ідеї до реалізації це довгий процес. Для цього ми створили команду, і це зайняло кілька місяців, щоб все працювало.

“Складність” - народження цього розпливчастого натхнення пов’язане з архітектурою вашої абсолютно новаторської організації. У часи Магічного квадрата ви мало призначали цілі або завдання зверху вниз. Але чи не додає AGI цьому фронтовому дослідженню, повному невизначеності, керуючих дій?

Лян Вэнфэн：DeepSeek також є повністю знизу вгору. Крім того, ми зазвичай не використовуємо передбачену роботу, але природну роботу. Кожна людина має свій унікальний досвід зростання, вони мають власні ідеї і не потребують тиску. Під час дослідження, якщо виникають проблеми, він сам залучає людей для обговорення. Однак коли ідея проявляє потенціал, ми також будемо розподіляти ресурси зверху вниз.

**“Темний потік”: чув, що DeepSeek дуже гнучко налаштовується щодо карт і людей.

Лян Вэнфэн: У нас нет ограничений на перемещение карт и людей. Если у вас есть идеи, каждый может в любое время использовать карты в учебном кластере без необходимости получения одобрения. В то же время, так как нет иерархии и межотделового взаимодействия, вы также можете гибко общаться со всеми, если они заинтересованы.

「Аньчун」: це вільний спосіб управління, який залежить від того, як ви відбираєте людей, що мають сильну мотивацію. Я чув, що ви добре розбираєтеся у відборі людей за дрібницями і можете відібрати деяких винятково здібних людей за нестандартними критеріями оцінки.

** Liang Wenfeng **: Нашими стандартами отбора всегда были любовь и любопытство, поэтому у многих людей есть необычные опыты, что очень интересно. Многие люди стремятся к исследовательской работе гораздо больше, чем заботятся о деньгах.

「暗涌」: Transformer народився в AI Lab Google, а ChatGPT народився в OpenAI. Що, на вашу думку, відрізняє значення інновацій між великою корпорацією AI Lab та стартап-компанією?

Лян Веньфен: Незалежно від того, чи це лабораторія Google, чи OpenAI, або навіть AI Lab великих китайських фабрик, це дуже цінно. Останнім часом OpenAI також має історичну випадковість.

“Surge”: Інновація на велику міру є випадковістю? Я бачу, що по обидва боки від центральної ряду залів засідань в вашому офісі встановлені двері, які можна відкрити за бажанням. Ваші колеги кажуть, що це дає можливість випадковості. Під час створення transfomer відбувалися подібні випадкові ситуації, коли люди, які мали нічого спільного з цим, почули і приєдналися, нарешті перетворивши його на загальний фреймворк.

Лян Веньфэн：Я вважаю, що інновації - це, в першу чергу, питання віри. Чому Силіконова долина така інноваційна? Спочатку - це сміливо. Коли Chatgpt з’явився, всюди в країні було відсутнє відчуття впевненості в проведенні передових інновацій, від інвесторів до великих підприємств, всі вважали, що різниця занадто велика, краще займатися застосуванням. Але для інновацій спершу потрібна впевненість. Ця впевненість зазвичай більш яскраво виражена у молодих людей.

**«Темний потік»: але ви не берете участь у фінансуванні, мало говорите ззовні, суспільний вплив безперечно менший, ніж у компаній, які активно залучають фінансування. Як забезпечити, що DeepSeek - це перший вибір для тих, хто працює з великими моделями?

Лян Венфен: тому що ми робимо найважчі речі. Найбільше приваблюють висококваліфіковані кадри, які, безсумнівно, спрямовані на вирішення найскладніших проблем у світі. Фактично, висококваліфіковані кадри в Китаї недооцінені. Це сталося через недостатню кількість твердих інновацій на соціальному рівні, що не надає їм можливості бути визнаними. Ми робимо найважчі речі, і це приваблює їх.

‘Сховище темряви’: Після останнього випуску OpenAI GPT5 не було, і багато людей вважають, що це свідчить про сповільнення технологічної кривої. Багато людей також ставлять під сумнів Scaling Law. Як ви на це дивитесь?

Liáng Wénfēng: Ми дещо оптимістичні, загалом галузь виглядає відповідно до очікувань. OpenAI також не є непереборним, і не може постійно бути впереді.

**「Темний потік」: Як довго, на ваш погляд, потрібно AGI, перед випуском DeepSeek V2, ви випустили модель генерації коду та математичну модель, також перейшли з щільної моделі на MOE, отже, які у вас є координати в маршрутній карті AGI?

Лян Веньфэн: Можливо, через 2 роки, 5 років або 10 років, в будь-якому випадку це буде досягнуто за нашого життя. Що стосується дорожньої карти, навіть всередині нашої компанії немає єдиної думки. Проте ми дійсно зробили ставку на три напрямки. По-перше, це математика і код, по-друге, це багатомодовість, по-третє, це сама природна мова. Математика та код - це природне поле для експериментів ШІІ, трохи схоже на гру в Го, це закрите, перевірене середовище, в якому можливо досягти високого інтелекту через самонавчання. З іншого боку, можливо, багатомодовість, участь в реальному світі людей є необхідною для ШІІ. Ми залишаємося відкритими для будь-яких можливостей.

‘Підтримка’: Як ви думаєте, який буде кінцевий стан великого моделювання?

Лян Вэнфэн: буде компанія, яка надасть базову модель та базові послуги, буде дуже довгий ланцюг професійного поділу праці. Більше людей будуть задовольняти різноманітні потреби всього суспільства.

Всі трюки є продуктом попереднього покоління

«Темна хвиля»: протягом минулого року великі моделі бізнесу в Китаї мали багато змін, наприклад, у початку минулого року активний учасник Ван Хуівен вийшов середині року, а пізніше приєднавшись до компанії також почав проявляти відмінності.

Лян Веньфен: Ван Хуейвэнь сам понес все убытки, чтобы другие могли уйти целыми. Он сделал выбор, который был наименее выгоден ему лично, но был хорош для всех, поэтому он очень честный человек, и я его уважаю за это.

“Аномальный прилив”: де зараз найбільше зосереджено вашу енергію?

Liang Wenfeng: Основна увага приділяється дослідженню наступного покоління великих моделей. Є багато невирішених питань.

«Підтека»: Інші великі компанії зі створення моделей вперто претендують на те, щоб мати і те, і те, оскільки технології не забезпечують постійного переваги, важливо також використовувати перевагу технології, спускаючи її на продукт, DeepSeek сміливо спеціалізується на дослідженні моделей, через те, що їх здатності до моделювання ще недостатні?

Лян Вэньфэн: Всі трюки є продуктом попереднього покоління, майбутнє не обов’язково буде успішним. Обговорювати моделі прибутку майбутньої ШІ з логікою бізнесу Інтернету - це, як обговорювати General Electric і Coca-Cola в період заснування Ма Хуатен, ймовірно, це щось вроді рубання ковдри на шматки.

**“Темні течії”: у минулому фентезі мав дуже сильний технічний та інноваційний ген, зростання також було досить успішним, це є вашою частковою оптимістичною причиною?

Лян Веньфен: Магічний квадрат у певній мірі збільшує нашу віру в технологічно орієнтований інноваційний процес, але це також не є простою справою. Ми пройшли довгий процес накопичення. Зовнішній світ бачить лише частину після 2015 року, але насправді ми працювали 16 років.

‘Підняття хвиль’: Повернення до теми оригінального інноваційного підходу. Зараз економіка починає знижуватися, а капітал входить в холодний цикл. Тому це пригнічуватиме більше оригінальних інновацій?

Лян Веньфен: Я думаю, це не обов’язково. Перебудова китайської промислової структури буде більше залежати від інновацій твердих технологій. Коли багато людей відкриють, що швидкі гроші у минулому, ймовірно, були через епоху удачі, вони будуть більш схильні пригнутися, щоб справжня інновація.

“Темний потік”: Ти також оптимістично ставишся до цього?

Liáng Wénfēng: Я виріс у містечку в Гуандуні в 80-х роках. Мій батько був вчителем початкової школи. У 90-х роках в Гуандуні було багато можливостей заробити гроші, і тоді багато батьків приходили до нас додому, бо вони вважали, що немає сенсу вчитися. Але зараз, коли я повернувся, погляди змінилися. Тому що гроші заробити важче, можливо, навіть немає можливості стати таксистом. Час змінився для нового покоління.

У майбутньому буде все більше твердої інновації. Зараз це може бути важко зрозуміти через те, що всі суспільства потребують навчання фактами. Коли це суспільство дозволить твердим інноваторам досягти успіху, колективне мислення зміниться. Ми просто потребуємо багато фактів і процесу.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів