Tiết lộ DeepSeek: một câu chuyện lý tưởng về công nghệ Trung Quốc càng tinh vi hơn

金色财经_

2025-01-27 13:39:49

Tác giả: Yu Lili; Nguồn: An Dung Waves

Trong 7 công ty khởi nghiệp lớn tại Trung Quốc, DeepSeek luôn giữ mình ở phía sau, nhưng vẫn luôn gây ấn tượng bất ngờ bằng cách nào đó.

Cách đây một năm, điều bất ngờ này đến từ quỹ riêng số hóa khối lượng phía sau nó, là công ty duy nhất ngoài công ty lớn có dự trữ 10.000 chip A100, một năm sau, nó mới là nguồn gốc của cuộc chiến giá mô hình lớn ở Trung Quốc.

Trong tháng 5 bị AI liên tục tấn công, DeepSeek đã trở nên nổi tiếng. Nguyên nhân là do họ đã phát hành một mô hình mã nguồn mở có tên DeepSeek V2, cung cấp một tỷ lệ hiệu quả chưa từng có: chi phí suy luận chỉ còn 1 đồng cho mỗi triệu mã thông báo, tương đương với 1/7 của Llama3 70B và 1/70 của GPT-4 Turbo.

DeepSeek được nhanh chóng đặt cho biệt hiệu “Pinduoduo của thế giới trí tuệ nhân tạo”, trong khi các tên tuổi lớn như ByteDance, Tencent, Baidu và Alibaba cũng không thể kiềm chế được và đã liên tiếp giảm giá. Cuộc chiến giá cả mô hình lớn của Trung Quốc đã bắt đầu từ đây.

Hơi khói tràn lan thực tế là che đậy một sự thật: DeepSeek có lợi nhuận khác với nhiều công ty lớn khác đang đốt tiền trợ cấp.

Đằng sau điều này là sự đổi mới toàn diện của kiến trúc mô hình của DeepSeek. Nó đề xuất một kiến trúc MLA mới (một cơ chế chú ý tiềm ẩn nhiều đầu mới) giảm việc sử dụng bộ nhớ đồng thời đạt 5%-13% so với kiến trúc MHA thường dùng nhất trong quá khứ. Đồng thời, cấu trúc DeepSeekMoESparse độc đáo cũng giảm thiểu lượng tính toán đến mức tối đa, tất cả những điều này cuối cùng đã dẫn đến việc giảm chi phí.

Ở thung lũng Silicon, DeepSeek được mệnh danh là “lực lượng bí ẩn từ phương Đông”. Người phân tích cấp cao của SemiAnalysis tin rằng bài báo DeepSeek V2 “có thể là bài báo hay nhất trong năm nay”. Andrew Carr, cựu nhân viên của OpenAI, cho rằng bài báo này “được trau dồi bởi trí tuệ tuyệt vời” và áp dụng cài đặt đào tạo vào mô hình của mình. Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, cho rằng DeepSeek đã “tuyển dụng một nhóm thiên tài sâu sắc và khó đoán” và tin rằng các mô hình lớn được sản xuất tại Trung Quốc, “sẽ trở thành một lực lượng không thể bỏ qua, giống như máy bay không người lái và ô tô điện.”

Trong làn sóng AI được điều khiển chủ yếu bởi thung lũng Silicon, đây là một tình huống hiếm gặp. Nhiều chuyên gia trong ngành cho biết phản ứng mạnh mẽ này xuất phát từ việc đổi mới tại cấp kiến trúc, là một thử nghiệm hiếm thấy của các công ty mô hình lớn nội địa và cơ sở mô hình lớn nguồn mở toàn cầu. Một nhà nghiên cứu AI cho biết, trong nhiều năm qua, kiến trúc Attention gần như chưa được thay đổi thành công, chưa nói đến việc xác minh quy mô lớn. ‘Đây thậm chí là một suy nghĩ sẽ bị cắt ngang khi đưa ra quyết định, vì hầu hết mọi người thiếu tự tin.’

Mặt khác, trước đây, các mô hình lớn do trong nước sản xuất ít tham gia vào việc đổi mới mức kiến trúc, cũng vì ít người tự nguyện phá vỡ một sự định kiến như vậy: Mỹ giỏi hơn trong việc sáng tạo công nghệ từ 0-1, trong khi Trung Quốc giỏi hơn trong việc sáng tạo ứng dụng từ 1-10. Hơn nữa, hành động như vậy rất không hiệu quả - các mô hình thế hệ mới sẽ tự nhiên được tạo ra trong vài tháng tới, các công ty Trung Quốc chỉ cần theo kịp và làm tốt việc ứng dụng. Đổi mới cấu trúc mô hình đồng nghĩa với không có con đường để theo, phải trải qua nhiều thất bại, mất nhiều thời gian và kinh phí.

DeepSeek rõ ràng là một sự thụt lùi. Giữa những ồn ào rằng công nghệ mô hình quy mô lớn chắc chắn sẽ hội tụ và đi theo là một lối tắt thông minh hơn, DeepSeek coi trọng giá trị tích lũy trong “đường vòng” và tin rằng các doanh nhân mô hình quy mô lớn của Trung Quốc có thể tham gia vào dòng chảy đổi mới công nghệ toàn cầu bên cạnh đổi mới ứng dụng.

Nhiều quyết định của DeepSeek đều là độc nhất vô nhị. Cho đến nay, trong số 7 công ty khởi nghiệp mô hình lớn tại Trung Quốc, nó là duy nhất một công ty từ bỏ con đường “muốn cả hai”, tập trung vào nghiên cứu và công nghệ, không phát triển ứng dụng dành cho người tiêu dùng, cũng là duy nhất một công ty không xem xét toàn diện về thương mại hóa, quyết định mạnh mẽ lựa chọn con đường mã nguồn mở và thậm chí chưa từng huy động vốn.

DeepSeek làm thế nào để phát triển? Chúng tôi đã phỏng vấn người sáng lập DeepSeek, Liang Wenfeng, người hiếm khi xuất hiện.

Người sáng lập sau thời kỳ phương trình ma thuật này, người đã nghiên cứu công nghệ từ sau thời kỳ 80, vẫn tiếp tục phong cách giữ thấp và giống như tất cả các nhà nghiên cứu khác, hằng ngày “đọc bài báo, viết mã, tham gia thảo luận nhóm” trong thời đại DeepSeek.

Với nhiều người sáng lập quỹ lượng tử đều có kinh nghiệm làm việc trong các quỹ đầu cơ nước ngoài, khác biệt với nhiều người là Liang Wenfeng luôn có nền tảng trong nước, và hướng chuyên sâu vào trí tuệ nhân tạo tại khoa kỹ thuật điện tử Đại học Chính sách và Điều phối của Trung Quốc.

Nhiều chuyên gia ngành và các nhà nghiên cứu DeepSeek đã cho chúng tôi biết rằng, Lương Văn Phong hiện đang là một trong những người hiếm hoi trong lĩnh vực AI tại Trung Quốc với “khả năng kỹ thuật infra mạnh mẽ và năng lực nghiên cứu mô hình, có khả năng kích hoạt tài nguyên” và “có thể đưa ra những đánh giá chính xác từ trên cao, nhưng cũng có thể vượt trội về chi tiết so với các nhà nghiên cứu hàng đầu”, anh ta có “khả năng học tập kinh hoàng”, đồng thời “hoàn toàn không giống như một ông chủ, mà giống như một con geek”.

Đây là một cuộc phỏng vấn đặc biệt hiếm hoi. Trong cuộc phỏng vấn, nhà lý tưởng kỹ thuật này đã đưa ra một tiếng nói đặc biệt khan hiếm trong ngành khoa học và công nghệ của Trung Quốc hiện nay: ** Ông là một trong số ít người đặt “quan điểm đúng sai” trước “quan điểm về lợi ích”, và nhắc nhở chúng ta nhìn thấy quán tính của thời đại và đưa “đổi mới ban đầu” vào chương trình nghị sự. **

Một năm trước, khi DeepSeek mới ra mắt, chúng tôi đã có cuộc phỏng vấn đầu tiên với Lương Văn Phong: “Ma trận điên cuồng: Hành trình của một siêu công ty AI ẩn danh”. Nếu nói lúc đó câu nói “Nhất định phải ôm ấp sự hoài bão một cách điên cuồng và cũng phải điên cuồng một cách chân thành” chỉ là một khẩu hiệu đẹp, thì sau một năm, nó đã trở thành một hành động.

Dưới đây là một phần của cuộc trò chuyện

Trận chiến giá đầu tiên đã được bắn ra như thế nào?

**「暗涌」：Sau khi phát hành mô hình DeepSeek V2, nhanh chóng gây ra cuộc chiến giá lớn, có người nói rằng bạn là một con cá mập trong ngành.

Liang Wenfeng: Chúng tôi không có ý định trở thành một con cá chép, chỉ là vô tình trở thành một con cá chép.

“Dòng chảy tối tăm”: Kết quả này có làm bạn bất ngờ không?

梁文锋：Rất bất ngờ. Không ngờ giá cả lại khiến mọi người nhạy cảm đến vậy. Chúng tôi chỉ làm theo lịch trình của mình, sau đó tính toán giá cả dựa trên chi phí. Nguyên tắc của chúng tôi là không bán dưới giá, cũng không kiếm lời lộc. Giá cả này cũng chỉ là có chút lợi nhuận trên chi phí.

“Sự xuất hiện bí ẩn”: Sau 5 ngày, trí tuệ nhân tạo của Zhìpǔ sẽ tiếp theo là các tên tuổi lớn như ByteDance, Alibaba, Baidu, Tencent, v.v.

Liang Wenfeng: Zhipu AI is an entry-level product, and the models at the same level as ours are still very expensive. Byte is the first to follow. The flagship model is reduced to the same price as ours, triggering other big factories to reduce prices. Because the cost of the models of these big factories is much higher than ours, we did not expect anyone to lose money to do this, and in the end it became the logic of burning money subsidies in the Internet era.

「暗涌」：Bên ngoài, giảm giá giống như đang tranh giành người dùng, cuộc chiến giá cả trong thời đại Internet thường như vậy.

Lương Văn Phong：Chúng tôi không phải là mục tiêu chính là cướp khách hàng. Chúng tôi giảm giá vì một phần là vì chúng tôi đang khám phá cấu trúc mô hình thế hệ tiếp theo, chi phí đã giảm xuống, một phần khác là chúng tôi nghĩ rằng cả API lẫn AI đều nên là những thứ phổ thông, mọi người đều có thể sử dụng được.

**“Ách dẫn”: Trước đó, hầu hết các công ty Trung Quốc đều sẽ sao chép trực tiếp cấu trúc Llama của thế hệ này để thực hiện ứng dụng, tại sao bạn lại bắt đầu từ cấu trúc mô hình?

Liang Wenfeng: Nếu mục tiêu là xây dựng ứng dụng, việc sử dụng kiến trúc Llama và đưa ra sản phẩm nhanh chóng cũng là một lựa chọn hợp lý. Nhưng đối với chúng tôi, mục tiêu là AGI, điều này có nghĩa là chúng tôi cần nghiên cứu các kiến trúc mô hình mới, để đạt được khả năng mô hình mạnh mẽ hơn trong tài nguyên hạn chế. Đây là một trong những nghiên cứu cơ bản cần thiết để mở rộng thành mô hình lớn hơn. Ngoài kiến trúc mô hình, chúng tôi đã thực hiện nhiều nghiên cứu khác, bao gồm cách xây dựng dữ liệu, làm thế nào để mô hình trở nên giống con người hơn, tất cả đều được thể hiện trong các mô hình chúng tôi đã phát hành. Ngoài ra, kiến trúc Llama hiện tại cũng có khoảng cách hai thế hệ so với tiêu chuẩn tiên tiến ở nước ngoài về hiệu suất huấn luyện và chi phí suy luận.

**「暗涌」: Sự chênh lệch này chủ yếu đến từ đâu?

Liang Wenfeng: Trước hết, có một khoảng cách về hiệu quả đào tạo. Chúng tôi ước tính rằng so với mức tốt nhất ở Trung Quốc và tốt nhất ở nước ngoài, có thể có một khoảng cách kép trong cấu trúc mô hình và động lực đào tạo, và chúng tôi cần tiêu thụ gấp đôi sức mạnh tính toán để đạt được hiệu quả tương tự. Ngoài ra, có thể có một khoảng cách kép về hiệu quả dữ liệu, nghĩa là chúng ta cần tiêu thụ gấp đôi dữ liệu đào tạo và sức mạnh tính toán để đạt được hiệu quả tương tự. Kết hợp lại, nó tiêu thụ sức mạnh tính toán gấp 4 lần. Những gì chúng ta cần làm là tiếp tục thu hẹp những khoảng cách này.

“Dòng chảy tối tăm”: Hầu hết các công ty Trung Quốc đều chọn cả hai mô hình và ứng dụng, tại sao DeepSeek hiện tại chỉ chọn làm nghiên cứu khám phá?

Liang Wenfeng: Bởi vì chúng tôi cho rằng điều quan trọng nhất hiện nay là tham gia vào làn sóng sáng tạo toàn cầu. Trong nhiều năm qua, các công ty Trung Quốc đã quen với việc người khác làm sáng tạo công nghệ, chúng tôi chỉ việc áp dụng và thương mại hóa. Nhưng điều này không phải là điều đương nhiên. Trong làn sóng này, điểm khởi đầu của chúng tôi không phải là kiếm lợi nhanh, mà là tiến tới phía trước về công nghệ, để thúc đẩy sự phát triển của toàn bộ hệ sinh thái.

“Dòng chảy tối tăm”: Trong thời đại Internet và di động, kiến thức inerte mà hầu hết mọi người đều có là, Mỹ giỏi về sáng tạo công nghệ, còn Trung Quốc giỏi về ứng dụng.

Liang Wenfeng: Chúng tôi cho rằng với sự phát triển kinh tế, Trung Quốc cũng cần từng bước trở thành người đóng góp thay vì chỉ đi cùng xe. Trong hơn 30 năm qua, trong làn sóng CNTT, chúng ta gần như không tham gia vào sự đổi mới công nghệ thực sự. Chúng ta đã quen với định luật Moore rơi từ trên trời xuống, chỉ cần 18 tháng chúng ta sẽ có phần cứng và phần mềm tốt hơn. Định luật Scaling cũng được đối xử như vậy.

Nhưng thực tế là đây là những gì mà cộng đồng công nghệ do phương Tây dẫn đầu đã không biết mỏi mệt sáng tạo ra, chỉ vì trước đây chúng ta không tham gia vào quá trình này và đã bỏ qua sự tồn tại của nó.

Sự khác biệt thực sự không phải là 1 năm hoặc 2 năm, mà là sự khác biệt giữa sự sáng tạo và sự bắt chước

「潮汐」：为什么DeepSeek V2会让硅谷的很多人惊讶？

Liang Wenfeng: Trong số lượng đổi mới xảy ra hàng ngày ở Mỹ, điều này là rất bình thường. Lý do họ ngạc nhiên là vì đây là một công ty Trung Quốc tham gia vào trò chơi của họ dưới tư cách nhà cống hiến đổi mới. Sau cùng, phần lớn các công ty Trung Quốc thích đi theo, chứ không phải sáng tạo.

“潮汐”：Tuy nhiên, việc lựa chọn này khi đặt trong ngữ cảnh Trung Quốc cũng quá xa xỉ. Mô hình lớn là một trò chơi đòi hỏi đầu tư lớn, không phải tất cả các công ty đều có vốn chỉ để nghiên cứu sáng tạo mà không xem xét việc thương mại hóa trước.

Liang Wenfeng: Chi phí đổi mới chắc chắn không thấp, sự trì hoãn của sự lạc quan ở quá khứ cũng liên quan đến tình hình quốc gia trong quá khứ. Nhưng hiện nay, bạn có thể thấy rằng, dù là quy mô kinh tế của Trung Quốc hay lợi nhuận của các công ty như Byte và Tencent, đều không thấp so với toàn cầu. Những gì chúng ta thiếu để đổi mới chắc chắn không phải là vốn, mà là thiếu niềm tin và không biết cách tổ chức các tài năng có mật độ cao để thực hiện đổi mới hiệu quả.

“Dòng chảy tối tăm”: Tại sao các công ty Trung Quốc - kể cả những công ty lớn có tiền không thiếu, lại dễ dàng coi việc thương mại hóa nhanh chóng là ưu tiên hàng đầu?

Lương Văn Phong: Trong 30 năm qua, chúng ta chỉ chú trọng vào việc kiếm tiền mà bỏ qua sự đổi mới. Sự đổi mới không hoàn toàn do kinh doanh thúc đẩy, mà còn cần sự tò mò và ham muốn sáng tạo. Chúng ta chỉ bị ràng buộc bởi tình trạng quen thuộc trong quá khứ, nhưng đó cũng chỉ là tạm thời.

‘Sóng ngầm’: Tuy nhiên, bạn là một tổ chức thương mại chứ không phải là một cơ quan nghiên cứu phi lợi nhuận, việc chọn sáng tạo và chia sẻ thông qua mã nguồn mở thì phải tạo thành một hàng rào bảo vệ ở đâu? Những sáng kiến kiến trúc MLA của tháng 5 này cũng sẽ được sao chép rất nhanh bởi những người khác, đúng không?’

Lương Văn Phong: Trước công nghệ đột phá, bức tường thành hình thành từ việc bí mật hóa mã nguồn là tạm thời. Ngay cả khi OpenAI giữ mã nguồn, cũng không thể ngăn ai đó vượt mặt. Vì vậy, chúng tôi tập trung giá trị vào đội ngũ, đồng nghiệp của chúng tôi trong quá trình này đã trưởng thành, tích luỹ rất nhiều know-how, hình thành một tổ chức và văn hóa có thể sáng tạo, đó chính là bức tường thành của chúng tôi.

Mở nguồn, viết bài báo, thực ra không mất đi cái gì cả. Đối với các kỹ sư công nghệ, được theo dõi là một điều rất đáng tự hào. Thực ra, mã nguồn mở giống như một hành vi văn hóa, chứ không phải hành vi kinh doanh. Việc công nhận thực sự là một vinh dự bổ sung. Việc một công ty làm như vậy cũng có sức hút văn hóa.

**“Dòng chảy tối tăm”: Bạn nghĩ gì về quan điểm tín thần thị trường như Zhū Xiàohǔ này?

Liang Wenfeng: Zhū Xiào Hǔ shì zì qià de, dàn tā de dǎ fǎ gèng shì hé kuài sù zhuàn qián de gōng sī, ér nǐ kàn měi guó zuì zhuàn qián de gōng sī, dōu shì hòu jī bó fā de gāo kē jì gōng sī.

「暗涌」：Nhưng để tạo ra một mô hình lớn, chỉ có lợi thế kỹ thuật mà không thể tạo ra ưu thế tuyệt đối. Điều lớn hơn mà bạn đang đánh cược là gì?

Liang Wenfeng: Chúng tôi nhận thấy rằng trí tuệ nhân tạo của Trung Quốc không thể mãi ở vị trí theo sau. Chúng tôi thường nói rằng Trung Quốc và Mỹ chỉ chênh lệch 1-2 năm về trí tuệ nhân tạo, nhưng sự chênh lệch thực sự là sự khác biệt giữa sự sáng tạo và bắt chước. Nếu điều này không thay đổi, Trung Quốc sẽ mãi chỉ là người theo sau, vì vậy việc khám phá cũng là không thể tránh khỏi.

Sự dẫn đầu của NVIDIA không chỉ là kết quả của sự nỗ lực của một công ty mà còn là kết quả của sự nỗ lực chung của cộng đồng công nghệ và ngành công nghiệp phương Tây. Họ có thể nhìn thấy xu hướng công nghệ của thế hệ tiếp theo và có bản đồ đường đi trong tay. Sự phát triển của trí tuệ nhân tạo ở Trung Quốc cũng cần một hệ sinh thái như vậy. Nhiều vi xử lý nội địa không phát triển được cũng là do thiếu cộng đồng công nghệ đi kèm, chỉ có tin đồn thôi, vì vậy Trung Quốc chắc chắn cần người đứng lên ở phía trước của công nghệ.

Đầu tư nhiều hơn không nhất thiết dẫn đến nhiều đổi mới hơn

「暗涌」: Hiện tại, DeepSeek có một tinh thần lý tưởng ban đầu của OpenAI và cũng là mã nguồn mở. Sau này, bạn có chọn đóng cửa mã nguồn không? Cả OpenAI và Mistral đều đã trải qua quá trình từ mã nguồn mở sang đóng cửa mã nguồn.

Liang Wenfeng: Chúng tôi sẽ không đóng nguồn. Chúng tôi cho rằng việc có một hệ sinh thái công nghệ mạnh mẽ trước tiên quan trọng hơn.

「暗涌」：Bạn có kế hoạch huy động vốn không? Theo báo cáo truyền thông, Phantasm đã có kế hoạch niêm yết độc lập cho DeepSeek, một công ty khởi nghiệp trí tuệ nhân tạo tại Silicon Valley, cuối cùng cũng không tránh khỏi việc liên kết với các tập đoàn lớn.

Liang Wenfeng: Không có kế hoạch tài trợ trong tương lai gần, vấn đề chúng tôi đang đối mặt không phải là tiền bạc, mà là việc cấm vận chip cao cấp.

‘Surge’: Many people believe that AGI and quantification are completely different things. Quantification can be done quietly, but AGI may require a more proactive approach, alliances can make your investment bigger.

Liang Wenfeng: Sự đầu tư nhiều hơn không nhất thiết tạo ra nhiều đổi mới hơn. Nếu không thì các công ty lớn có thể giành hết tất cả sự đổi mới.

‘Dòng tối’ : Bạn không phát triển ứng dụng bây giờ là vì bạn không có gen vận hành hay sao?

Liang Wenfeng: Chúng tôi cho rằng giai đoạn hiện tại là giai đoạn bùng nổ của sự đổi mới công nghệ, chứ không phải là giai đoạn bùng nổ của ứng dụng. Trong tương lai xa, chúng tôi hy vọng tạo ra một hệ sinh thái, nghĩa là ngành công nghiệp sử dụng trực tiếp công nghệ và sản phẩm của chúng tôi, chúng tôi chỉ chịu trách nhiệm về mô hình cơ bản và sự đổi mới tiên tiến, sau đó các công ty khác xây dựng các dịch vụ dành cho doanh nghiệp (toB) và người tiêu dùng (toC) dựa trên DeepSeek. Nếu có thể hình thành một chuỗi cung ứng toàn diện, chúng tôi sẽ không cần phải tự làm ứng dụng. Tất nhiên, nếu cần thiết, chúng tôi cũng có thể làm ứng dụng, nhưng nghiên cứu và đổi mới công nghệ luôn là ưu tiên hàng đầu của chúng tôi.

「暗涌」: Nhưng nếu chọn API, tại sao lại chọn DeepSeek thay vì công ty lớn?

Liang Wenfeng: Thế giới trong tương lai có thể sẽ chia sẻ công việc theo chuyên môn, mô hình lớn cơ bản cần sự đổi mới liên tục, và các công ty lớn có giới hạn năng lực của chúng và không nhất thiết phù hợp.

**“Ách dũng”: Nhưng công nghệ có thực sự có thể tạo ra khoảng cách không? Bạn cũng đã nói rằng không có bí mật công nghệ tuyệt đối."

Liang Wenfeng: Công nghệ không có bí mật, nhưng việc đặt lại mất thời gian và chi phí. Thẻ đồ họa của NVIDIA, lý thuyết không có bất kỳ bí mật công nghệ nào, dễ dàng sao chép, nhưng việc tổ chức lại nhóm và đuổi kịp công nghệ thế hệ tiếp theo đều cần thời gian, vì vậy hào cản thực tế vẫn rất rộng.

“Áp lực tiềm tàng”: Sau khi các bạn giảm giá, ByteDance là công ty đầu tiên đáp ứng, điều này cho thấy họ vẫn cảm thấy lo ngại về một số mối đe dọa. Bạn nghĩ gì về giải pháp cạnh tranh giữa các công ty khởi nghiệp và các tập đoàn lớn?"

梁文锋：Thực tế, chúng tôi không quá quan tâm đến việc này, chỉ làm nó như một công việc phụ. Cung cấp dịch vụ đám mây không phải là mục tiêu chính của chúng tôi. Mục tiêu chính của chúng tôi vẫn là thực hiện AGI.

Hiện tại chưa thấy giải pháp mới, nhưng các công ty lớn cũng không có lợi thế rõ rệt. Các công ty lớn có người dùng sẵn có, nhưng dịch vụ dòng tiền mặt của nó cũng là gánh nặng của nó, đồng thời làm cho nó trở thành một đối tượng có thể bị lật đổ bất cứ lúc nào.

**「暗涌」：Bạn nhìn nhận thế nào về kết cục của 6 công ty khởi nghiệp mô hình lớn ngoài DeepSeek?

Liang Wenfeng: Có thể sẽ chỉ còn 2 đến 3 công ty sống sót. Hiện tại, tất cả đều đang ở giai đoạn đốt tiền, vì vậy những công ty có định vị rõ ràng và có thể vận hành tinh vi hơn sẽ có cơ hội sống sót hơn. Các công ty khác có thể sẽ trải qua sự thay đổi hoàn toàn. Những điều có giá trị sẽ không biến mất như khói, nhưng sẽ thay đổi một cách khác.

“Áp Dung”: Trong thời đại ma thuật, thái độ cạnh tranh của nó được đánh giá là “tự do”, ít quan tâm đến so sánh ngang hàng. Về cạnh tranh, điểm xuất phát của bạn là gì?

Liang Wenfeng: Điều tôi thường suy nghĩ là liệu một thứ gì đó có thể làm tăng hiệu suất hoạt động của xã hội và liệu bạn có thể tìm thấy vị trí mà bạn giỏi ở chuỗi cung ứng ngành công nghiệp của nó. Miễn là kết quả cuối cùng là làm tăng hiệu suất xã hội, thì nó là hợp lý. Trong quá trình này, có nhiều giai đoạn và quá trình chuyển tiếp, tập trung quá nhiều vào đó sẽ khiến bạn mất trí nhớ.

Một nhóm thanh niên làm việc ‘mập mờ khó lường’

“暗涌”: Jack Clark, cựu giám đốc chính sách của OpenAI và đồng sáng lập Anthropic, cho rằng DeepSeek đã thuê một nhóm “thần đồng tài năng khó đoán”, vậy DeepSeek v2 được tạo ra bởi một nhóm người như thế nào?

Liang Wenfeng: Không có thiên tài khó hiểu gì cả, họ chỉ là những sinh viên tốt nghiệp mới của các trường đại học hàng đầu, thực tập sinh năm thứ tư hoặc năm thứ năm chưa tốt nghiệp và một số người trẻ chỉ mới tốt nghiệp vài năm.

**「潜流」：Nhiều công ty mô hình lớn đều cố gắng tìm kiếm nhân tài ở nước ngoài, nhiều người cho rằng những người tài năng hàng đầu trong lĩnh vực này có thể không nằm trong các công ty Trung Quốc, nhân tài của anh/chị đến từ đâu?

Liang Wenfeng: Không có người trở về từ nước ngoài trong mô hình V2, tất cả đều là người trong nước. 50 người tài năng hàng đầu có thể không ở Trung Quốc, nhưng chúng ta có thể tự xây dựng những người như vậy.

‘Dòng nước tối’ là một sự sáng tạo MLA (Machine Learning Algorithm) mới, nó đã được tạo ra như thế nào? Tôi nghe nói rằng ý tưởng ban đầu đến từ một sở thích cá nhân của một nhà nghiên cứu trẻ?’

梁文锋：Sau khi tổng kết một số luật chuyển đổi chính trong kiến trúc Attention, anh ấy bắt đầu thiết kế một giải pháp thay thế. Tuy nhiên, từ ý tưởng đến thực tế, đó là một quá trình dài. Chúng tôi đã tổ chức một team cho điều này, mất vài tháng để triển khai.

**「暗涌」: Sự ra đời của cảm hứng phân tán này liên quan chặt chẽ đến cấu trúc tổ chức sáng tạo hoàn toàn mới của bạn. Trong thời đại ma trận, bạn hiếm khi chỉ định mục tiêu hoặc nhiệm vụ từ trên xuống. Tuy nhiên, liệu AGI có nhiều hoạt động quản lý hơn trong sự khám phá tiên tiến đầy không chắc chắn này không?

梁文锋：DeepSeek cũng hoàn toàn từ dưới lên trên. Và chúng tôi thường không phân chia công việc từ trước, mà là tự nhiên phân chia công việc. Mỗi người đều có quá trình phát triển riêng, đều có ý tưởng riêng, không cần phải thúc đẩy. Trong quá trình tìm kiếm, khi gặp vấn đề, anh ấy sẽ tự mình thảo luận với mọi người. Tuy nhiên, khi một ý tưởng cho thấy tiềm năng, chúng tôi cũng sẽ tự trên xuống dưới để phân phối tài nguyên.

「潜流」：Nghe nói DeepSeek rất linh hoạt trong việc tổ chức thẻ và người.

Liang Wenfeng: Mỗi người trong chúng ta đều không có giới hạn về việc sử dụng thẻ và di chuyển con người. Nếu có ý kiến, mọi người có thể sử dụng thẻ trong nhóm đào tạo bất kỳ lúc nào mà không cần phê duyệt. Đồng thời, vì không có cấp bậc và sự chia phòng ban, cũng có thể linh hoạt sử dụng tất cả mọi người, miễn là bên kia cũng quan tâm.

「暗涌」：Phong cách quản lý lỏng lẻo phụ thuộc vào việc bạn đã lựa chọn được một nhóm người đam mê và đầy nhiệt huyết. Tôi nghe nói rằng bạn giỏi trong việc tuyển dụng từ những chi tiết nhỏ, có thể chọn ra những người xuất sắc trong những tiêu chí đánh giá phi truyền thống.

Liang Wenfeng: Tiêu chí chúng tôi chọn người luôn là tình yêu và sự tò mò, vì vậy nhiều người có những trải nghiệm độc đáo, rất thú vị. Sự khao khát nghiên cứu của nhiều người vượt xa sự quan tâm đến tiền bạc.

**「暗涌」: Transformer được tạo ra tại AI Lab của Google, ChatGPT được tạo ra tại OpenAI, bạn nghĩ rằng giá trị mà AI Lab của các công ty lớn và một công ty khởi nghiệp tạo ra sự khác biệt trong việc đem lại đổi mới là gì?

梁文锋：Dù là Google Lab, OpenAI hay AI Lab của các tập đoàn lớn tại Trung Quốc, tất cả đều rất có giá trị. Cuối cùng, việc OpenAI làm ra cũng có tính ngẫu nhiên lịch sử.

‘Tàn dòng’: Có thể nói rằng sự đổi mới đôi khi cũng là một sự tình cờ không? Tôi đã thấy rằng cả hai bên của những căn phòng họp ở giữa khu văn phòng của bạn đều có những cánh cửa có thể mở tự do. Đồng nghiệp của bạn nói rằng đó là để để lại khoảng trống cho sự tình cờ. Câu chuyện về việc phát triển của transfomer cũng đã xảy ra do một người ngẫu nhiên nghe thấy và tham gia, cuối cùng biến nó thành một khung chung.

Liang Wenfeng: Tôi nghĩ rằng sáng tạo trước tiên là một vấn đề niềm tin. Tại sao thung lũng Silicon lại có tinh thần sáng tạo mạnh mẽ như vậy? Đầu tiên là dám. Khi Chatgpt ra đời, toàn bộ trong nước thiếu tự tin trong việc làm sáng tạo tiên tiến, từ nhà đầu tư đến các công ty lớn, đều cho rằng khoảng cách quá lớn, hãy làm ứng dụng đi. Nhưng sáng tạo trước tiên cần sự tự tin. Sự tự tin này thường rõ ràng hơn ở người trẻ.

‘Âm Dũng’: Nhưng bạn không tham gia tài trợ, hiếm khi phát biểu công khai, chắc chắn xã hội không thể so sánh được với những công ty tài trợ hoạt động, làm thế nào để đảm bảo DeepSeek là lựa chọn hàng đầu của những người làm mô hình lớn?

Liang Wenfeng: Bởi vì chúng tôi đang làm việc khó nhất. Đối với việc thu hút tài năng hàng đầu, chắc chắn là giải quyết những vấn đề khó nhất trên thế giới. Trên thực tế, tài năng hàng đầu tại Trung Quốc bị đánh giá thấp. Bởi vì sự đổi mới cốt lõi của toàn xã hội quá ít, làm cho họ không có cơ hội được nhận ra. Chúng tôi đang làm việc khó nhất, điều này làm họ hấp dẫn.

**「暗涌」: Trước đó, việc phát hành của OpenAI không đến GPT5, nhiều người cho rằng đây là dấu hiệu rõ ràng của việc giảm tốc độ phát triển công nghệ, và nhiều người bắt đầu đặt câu hỏi về Định luật Tăng trưởng. Quan điểm của bạn là gì?

Liang Wenfeng: Chúng tôi lạc quan, toàn bộ ngành công nghiệp có vẻ phù hợp với dự đoán. OpenAI cũng không phải là thần thánh, không thể luôn tiến xa phía trước.

**“潮汐”: Trước khi phát hành DeepSeek V2, bạn nghĩ AGI cần bao lâu để thực hiện? Bạn đã phát hành mô hình tạo mã và toán học trước đó, và chuyển từ mô hình dense sang MOE, vậy tuyến đường AGI của bạn có những điểm đề cập nào?

Liang Wenfeng: Có thể là 2 năm, 5 năm hoặc 10 năm, tóm lại, nó sẽ được thực hiện trong cuộc đời của chúng ta. Về lộ trình, ngay cả trong nội bộ công ty chúng tôi cũng không có sự thống nhất. Nhưng chúng tôi đã đặt cược theo ba hướng. Một là toán học và mã, thứ hai là đa phương thức, và thứ ba là ngôn ngữ tự nhiên. Toán học và mã là cơ sở thử nghiệm tự nhiên của AGI, giống như Go, một hệ thống khép kín, có thể kiểm chứng có tiềm năng đạt được mức độ thông minh cao thông qua việc tự học. Mặt khác, có thể đa phương thức và tham gia vào việc học tập trong thế giới thực của con người, điều này cũng cần thiết cho AGI. Chúng tôi sẵn sàng đón nhận mọi khả năng.

「暗涌」: Bạn nghĩ cuối cùng của mô hình lớn sẽ như thế nào?

梁文锋：Sẽ có các công ty chuyên cung cấp mô hình cơ bản và dịch vụ cơ bản, sẽ có sự chuyên nghiệp dài và phức tạp. Nhiều người hơn sẽ tham gia để đáp ứng nhu cầu đa dạng của xã hội.

Mọi chiêu trò đều là sản phẩm của thế hệ trước

“Sóng tối” : Trong năm qua, khởi nghiệp mô hình lớn tại Trung Quốc vẫn đang trải qua nhiều thay đổi, ví dụ như vào đầu năm ngoái, Wang Huiwen, người rất tích cực trước đó, đã rời đi, và các công ty mới tham gia cũng bắt đầu cho thấy sự khác biệt.

Liang Wenfeng: Vương Huệ Văn tự chịu trách nhiệm cho tất cả các tổn thất và để cho mọi người thoát khỏi. Anh ta đã làm một lựa chọn không thuận lợi cho mình nhưng lại tốt cho mọi người, vì vậy anh ta là một người rất đáng kính trọng.

「潜流」：Bạn đang tập trung nhiều nhất vào đâu bây giờ?

Liang Wenfeng: Chủ yếu tập trung vào nghiên cứu mô hình lớn thế hệ tiếp theo. Còn rất nhiều vấn đề chưa được giải quyết.

「暗涌」: Các công ty khởi nghiệp mô hình lớn khác đều kiên trì muốn và cần cả, vì kỹ thuật không thể mang lại lợi thế vĩnh viễn, việc nắm bắt cửa sổ thời gian để đưa ưu thế kỹ thuật vào sản phẩm cũng rất quan trọng, liệu DeepSeek có dám tập trung vào nghiên cứu mô hình vì khả năng của mô hình chưa đủ?

梁文锋：Tất cả các chiêu trò đều là sản phẩm của thế hệ trước, và tương lai không nhất định sẽ thành công. Nếu bạn sử dụng logic kinh doanh trên Internet để thảo luận về mô hình lợi nhuận của AI trong tương lai, giống như khi Ma Huateng khởi nghiệp, bạn thảo luận về General Electric và Coca-Cola. Điều này có thể là một cách tìm kiếm con dao bấu víu.

“Dòng sự bất thường”: Trong quá khứ, Fantom đã có những gen công nghệ và sáng tạo mạnh mẽ, và việc phát triển cũng khá thuận lợi. Điều này có phải là lý do bạn lạc quan hơn không?"

Liang Wenfeng: Phương pháp ma thuật một mặt nào đó đã tăng cường niềm tin của chúng tôi vào sáng tạo dựa trên công nghệ, nhưng không phải tất cả đều suôn sẻ. Chúng tôi đã trải qua một quá trình tích lũy lâu dài. Những gì người bên ngoài thấy là một phần sau năm 2015 của phương pháp ma thuật, nhưng thực tế là chúng tôi đã làm từ năm 16.

「暗涌」: Quay trở lại chủ đề về sáng tạo độc đáo. Hiện nay, kinh tế bắt đầu đi xuống và vốn cũng vào chu kỳ lạnh, vậy liệu điều này có đem lại nhiều sự hạn chế hơn đối với sáng tạo độc đáo không?

Liang Wenfeng: Tôi nghĩ không nhất định. Việc điều chỉnh cấu trúc ngành công nghiệp của Trung Quốc sẽ phụ thuộc nhiều hơn vào sự đổi mới công nghệ cốt lõi. Khi nhiều người nhận ra rằng việc kiếm tiền nhanh trong quá khứ có thể đến từ sự may mắn của thời đại, họ sẽ sẵn lòng thấm nhuần để thực sự đổi mới.

「暗涌」：Vậy bạn cũng lạc quan về việc này à?

Liang Wenfeng: Tôi lớn lên ở một thành phố cấp 5 ở Quảng Đông vào những năm 80. Cha tôi là một giáo viên tiểu học. Vào những năm 90, có nhiều cơ hội kiếm tiền ở Quảng Đông. Lúc đó có rất nhiều phụ huynh đến nhà tôi, cơ bản là vì họ cho rằng học sách không có ích. Nhưng khi trở lại và nhìn lại bây giờ, quan niệm đã thay đổi. Vì kiếm tiền không còn dễ dàng như trước, thậm chí có thể không còn cơ hội lái taxi nữa. Thời gian của một thế hệ đã thay đổi.

Sau này sẽ có nhiều sáng kiến cứng hơn. Hiện tại có thể vẫn khó hiểu vì cả cộng đồng xã hội cần được giáo dục bằng sự thật. Khi những người sáng lập cứng có thành công, suy nghĩ tập thể sẽ thay đổi. Chúng ta chỉ cần nhiều sự thật và quá trình.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận