Tian Yuandong dội gáo nước lạnh vào dự án Q* bí ẩn của OpenAI: dữ liệu tổng hợp không phải là vị cứu tinh AGI và khả năng bị giới hạn trong các bài toán đơn giản
Cuộc thảo luận về giả thuyết Q vẫn tiếp tục, và hôm nay, bậc thầy AI Tian Yuandong đã công khai tuyên bố rằng Q * chỉ có thể giải quyết các vấn đề toán học ở cấp độ đầu vào và AGI cũng có khả năng không thể đạt được thông qua dữ liệu tổng hợp.
Phỏng đoán Q* tiếp tục phổ biến trong cộng đồng AI.
Mọi người đang suy đoán liệu Q* có phải là “Q-learning + A *” hay không.
Chuyên gia AI Fuchito Tian cũng phân tích chi tiết khả năng giả thuyết “Q*=Q-learning+A*” là như thế nào.
Đồng thời, ngày càng có nhiều người đánh giá rằng dữ liệu tổng hợp là tương lai của LLM.
Tuy nhiên, Tian Yuandong đã dội gáo nước lạnh vào câu nói này.
Tôi không đồng ý một phần với tuyên bố rằng AGI có thể được giải quyết đơn giản bằng cách phóng to dữ liệu tổng hợp.
Search rất mạnh mẽ bởi vì, nếu môi trường được thiết kế đúng cách, nó sẽ tạo ra vô số mẫu mới cho các mô hình học hỏi và thích nghi.
Tuy nhiên, câu hỏi liệu có cần hàng tỷ dữ liệu để học một mô hình mới như vậy hay không vẫn là một câu hỏi mở, điều này có thể chỉ ra một số sai sót cơ bản trong mô hình kiến trúc / học tập của chúng ta.
Ngược lại, con người thường dễ dàng khám phá các mô hình mới thông qua khoảnh khắc “aha”.
Jim Fan, một nhà khoa học cao cấp tại NVIDIA, đồng ý rằng dữ liệu tổng hợp sẽ đóng một vai trò quan trọng, nhưng chỉ đơn giản bằng cách mở rộng quy mô một cách mù quáng sẽ không đủ để đạt được AGI.
Q*=Q-learning+A, khả năng như thế nào
Tian Yuandong nói rằng dựa trên kinh nghiệm trong quá khứ của ông với OpenGo (một bản sao của AlphaZero), A * có thể được coi là một phiên bản MCTS xác định chỉ với giá trị (tức là heuristic) hàm Q.
A* rất phù hợp cho các nhiệm vụ mà trạng thái dễ đánh giá sau một hành động nhất định, nhưng hành động rất khó dự đoán sau một trạng thái nhất định. Một ví dụ điển hình của điều này là một vấn đề toán học.
Ngược lại, Go là một câu chuyện khác: ứng cử viên tiếp theo tương đối dễ dự đoán (chỉ bằng cách kiểm tra hình dạng địa phương), nhưng việc đánh giá tình hình trên bảng sẽ khó khăn hơn nhiều.
Đó là lý do tại sao chúng tôi cũng có các bot Go khá mạnh, nhưng chúng chỉ sử dụng các mạng chiến lược.
Đối với LLM, có thể có thêm lợi thế khi sử dụng Q (s, a), vì việc đánh giá Q (s, a) có thể chỉ yêu cầu tiền dân số, trong khi chiến lược dự đoán a = pi (s) yêu cầu lấy mẫu tự hồi quy, chậm hơn nhiều. Ngoài ra, trong trường hợp chỉ sử dụng bộ giải mã, bộ đệm KV của s có thể được chia sẻ trên nhiều thao tác.
Q * huyền thoại, người đã có một bước nhảy vọt lớn trong việc giải quyết các vấn đề toán học, khả năng này là bao nhiêu?
Tian Yuandong nói rằng dự đoán của ông là hàm giá trị sẽ tương đối dễ thiết lập vì vấn đề toán học đầu vào đang được giải quyết (ví dụ, nó có thể được dự đoán từ đặc tả mục tiêu dưới dạng ngôn ngữ tự nhiên).
Nếu bạn muốn giải quyết một vấn đề toán học khó khăn và không biết làm thế nào để làm điều đó, cách tiếp cận này có thể không đủ.
LeCun đã tweet lại cuộc thảo luận của Tian và đồng ý với quan điểm của anh ấy - "Anh ấy đã giải thích sự khác biệt về khả năng ứng dụng giữa A * (tìm kiếm con đường ngắn nhất trong biểu đồ) và MCTS (tìm kiếm trong một cái cây phát triển theo cấp số nhân). 」
Về việc LeCun retweet, Tian Yuandong nói rằng anh đã làm nhiều việc khác nhau, bao gồm lập kế hoạch, hiểu Transformers / LLM và các kỹ thuật tối ưu hóa hiệu quả, hy vọng sẽ kết hợp các công nghệ này.
Một số cư dân mạng bày tỏ sự hoài nghi, cho rằng: "Để A* có giá trị, cần có một chức năng heuristic có thể chứng minh, chấp nhận được và nhất quán. Nhưng tôi rất nghi ngờ bất cứ ai có thể đưa ra một hàm như vậy, bởi vì nó không dễ dàng để xác định giá trị của một chuỗi con. 」
** Ngay cả khi bạn làm một bài toán ở trường tiểu học, Q * dự kiến sẽ cao **
Bất cứ ai biết thậm chí một chút về các mô hình lớn đều biết rằng khả năng giải quyết các vấn đề toán học cơ bản có nghĩa là khả năng của một mô hình để làm như vậy là một bước nhảy vọt lớn.
Điều này là do các mô hình lớn khó khái quát hóa bên ngoài dữ liệu được đào tạo.
Charles Higgins, đồng sáng lập công ty khởi nghiệp đào tạo AI Tromero, nói rằng vấn đề chính gây khó khăn cho các mô hình lớn hiện nay là làm thế nào để suy luận logic về các khái niệm trừu tượng và nếu đạt được bước này, chắc chắn sẽ là một bước nhảy vọt.
Toán học là nghiên cứu về lý luận biểu tượng, ví dụ, nếu X lớn hơn Y và Y lớn hơn Z, thì X lớn hơn Z.
Nếu Q* thực sự là Q-learning + A *, nó cho thấy mô hình mới của OpenAI có thể kết hợp công nghệ học sâu hỗ trợ ChatGPT với các quy tắc lập trình của con người. Và phương pháp này có thể giúp giải quyết câu đố ảo giác của LLM.
Theo đồng sáng tạo Tromero Sophia Kalanovska, điều này có ý nghĩa biểu tượng rất quan trọng, nhưng ở cấp độ thực tế, nó khó có thể kết thúc thế giới.
Vậy tại sao lại có tin đồn rằng “Q* đã xuất hiện trong nguyên mẫu của AGI”?
Kalanovska lập luận rằng, theo các tuyên bố hiện tại, Q có thể kết hợp hai bên não và hiểu mọi thứ từ kinh nghiệm trong khi lý luận về các sự kiện.
Rõ ràng, đây là một bước gần hơn với trí thông minh được công nhận của chúng tôi, bởi vì Q * có khả năng đưa ra ý tưởng mới cho các mô hình lớn, điều mà ChatGPT không thể làm được.
Hạn chế lớn nhất của các mô hình hiện tại là chúng chỉ có thể lấy lại thông tin từ dữ liệu đào tạo, nhưng không thể suy luận và phát triển ý tưởng mới.
Giải quyết vấn đề vô hình là một bước quan trọng trong việc tạo ra AGI.
Andrew Rogoyski, giám đốc Viện AI tại Trung tâm Nhân loại Surrey, nói rằng các mô hình lớn tồn tại ngày nay có thể làm các bài toán ở cấp đại học, nhưng khi nói đến các bài toán nâng cao hơn, tất cả đều thất bại.
Nhưng nếu LLM thực sự có thể giải quyết các vấn đề mới, vô hình, đó là một vấn đề lớn, ngay cả khi các bài toán được thực hiện tương đối đơn giản.
** Dữ liệu tổng hợp là chìa khóa cho tương lai của LLM?**
Vậy, dữ liệu tổng hợp có phải là vua không?
Sự bùng nổ của Q* đã gây ra rất nhiều suy đoán giữa các ông lớn, và các ông lớn suy đoán rằng “tài nguyên máy tính khổng lồ cho phép mô hình mới giải quyết một số vấn đề toán học nhất định” có thể là RLAIF (học tăng cường từ phản hồi AI).
RLAIF là một công nghệ thay thế các tùy chọn gắn thẻ của con người từ các LLM có sẵn, làm cho các hoạt động căn chỉnh chống lại LLM có thể mở rộng hơn bằng cách tự động hóa phản hồi của con người.
RLHF (Học tăng cường dựa trên phản hồi của con người), trước đây đã tỏa sáng trong đào tạo LLM, có thể sắp xếp hiệu quả các mô hình ngôn ngữ lớn với sở thích của con người, nhưng thu thập nhãn ưu tiên chất lượng cao của con người là một nút cổ chai chính.
Do đó, các công ty như Anthropic và Google đã cố gắng chuyển sang RLAIF, sử dụng AI để thay thế con người trong quá trình đào tạo phản hồi.
Điều này có nghĩa là dữ liệu tổng hợp là vua và sử dụng cấu trúc cây cung cấp ngày càng nhiều tùy chọn cho sau này, để đi đến câu trả lời đúng.
Cách đây không lâu, Jim Fan đã tweet rằng dữ liệu tổng hợp sẽ cung cấp hàng nghìn tỷ dữ liệu đào tạo chất lượng cao tiếp theo.
"Tôi cá là hầu hết các nhóm LLM nghiêm túc đều biết điều đó. Câu hỏi quan trọng là làm thế nào để duy trì chất lượng và tránh trì trệ sớm. 」
Jim Fan cũng trích dẫn bài viết “Bài học cay đắng” của Richard S. Sutton để minh họa rằng chỉ có hai mô hình trong sự phát triển của AI có thể được mở rộng vô hạn thông qua tính toán: học tập và tìm kiếm.
"Đó là sự thật vào năm 2019 tại thời điểm viết bài báo này, và nó đúng ngày hôm nay, tôi cá là cho đến ngày chúng tôi giải quyết AGI. 」
Richard S. Sutton là thành viên của Hiệp hội Hoàng gia Canada và Hiệp hội Hoàng gia, và ông được coi là một trong những người sáng lập ra học tăng cường tính toán hiện đại, có một số đóng góp đáng kể cho lĩnh vực này, bao gồm học tập chênh lệch thời gian và phương pháp gradient chiến lược.
Trong bài viết này, Sutton đưa ra những điểm sau:
Một cách tiếp cận chung thúc đẩy máy tính cuối cùng là hiệu quả và hiệu quả nhất. Nhưng lý do cho điều này là Định luật Moore, hay chính xác hơn là do sự suy giảm theo cấp số nhân liên tục về chi phí trên mỗi đơn vị máy tính.
Ban đầu, các nhà nghiên cứu đã làm việc để tránh tìm kiếm bằng cách khai thác kiến thức của con người hoặc các tính năng đặc biệt của trò chơi, tất cả đều có vẻ không liên quan khi tìm kiếm được áp dụng hiệu quả trên quy mô lớn.
Một lần nữa, các phương pháp thống kê đã chiến thắng các phương pháp dựa trên tri thức của con người, dẫn đến những thay đổi đáng kể trong toàn bộ lĩnh vực xử lý ngôn ngữ tự nhiên, nơi thống kê và tính toán dần trở nên thống trị trong nhiều thập kỷ.
Các nhà nghiên cứu AI thường cố gắng xây dựng kiến thức vào các hệ thống, điều này có thể hữu ích trong ngắn hạn, nhưng có thể cản trở tiến bộ hơn nữa về lâu dài.
Những đột phá cuối cùng sẽ đạt được thông qua cách tiếp cận dựa trên tìm kiếm và học hỏi.
Nội dung thực tế của tâm trí là vô cùng phức tạp, và chúng ta nên ngừng cố gắng tìm ra những cách đơn giản để thể hiện suy nghĩ, và thay vào đó chúng ta chỉ nên xây dựng các phương pháp siêu hình có thể tìm và nắm bắt sự phức tạp tùy ý này.
Vì vậy, có vẻ như Q* đã nắm bắt được mấu chốt của vấn đề (tìm kiếm và học hỏi), và dữ liệu tổng hợp sẽ tiếp tục cho phép nó vượt qua những hạn chế của quá khứ và thực hiện bước nhảy vọt của riêng mình.
Về dữ liệu tổng hợp, Musk cũng nói rằng con người thực sự không thể đánh bại máy móc.
"Bạn có thể đặt văn bản của mỗi cuốn sách mà con người viết vào ổ cứng (thở dài), và dữ liệu tổng hợp sẽ nhiều hơn thế. 」
Về vấn đề này, Jim Fan đã tương tác với Musk và nói:
"Nếu chúng ta có thể mô phỏng chúng trên quy mô lớn, rất nhiều dữ liệu tổng hợp sẽ đến từ các tác nhân hiện thân, chẳng hạn như Tesla Optimus. 」
Jim Fan nghĩ rằng RLAIF, hoặc RLAIF từ phản hồi nền tảng, sẽ đi một chặng đường dài nếu được thu nhỏ chính xác. Ngoài ra, dữ liệu tổng hợp bao gồm các trình mô phỏng, về nguyên tắc có thể giúp LLM phát triển các mô hình thế giới.
"Lý tưởng nhất, nó là vô hạn. Nhưng mối quan tâm là nếu chu trình tự cải thiện không đủ hiệu quả, nó có nguy cơ bị đình trệ. 」
Về giọng hát và sự hòa âm của hai người, LeCun nói rằng anh ấy có vài điều muốn nói:
LeCun tin rằng động vật và con người nhanh chóng trở nên rất thông minh với rất ít dữ liệu huấn luyện.
Vì vậy, sử dụng nhiều dữ liệu hơn (tổng hợp hoặc không tổng hợp) là một biện pháp tạm thời, đơn giản vì cách tiếp cận hiện tại của chúng tôi có những hạn chế.
Về vấn đề này, cư dân mạng ủng hộ “phe dữ liệu lớn” bày tỏ sự không hài lòng:
“Hàng triệu năm thích nghi tiến hóa không giống như trước khi đào tạo, và kinh nghiệm cả đời của chúng ta giống như tinh chỉnh liên tục?”
LeCun sau đó đã đưa ra một ví dụ để giải thích rằng phương tiện duy nhất được con người sử dụng để thực hiện kết quả của hàng triệu năm tiến hóa là gen và lượng dữ liệu trong bộ gen của con người rất nhỏ, chỉ 800MB.
Ngay cả một LLM 7B nhỏ cũng yêu cầu 14GB dung lượng lưu trữ, đây thực sự không phải là nhiều dữ liệu trong bộ gen của con người.
Ngoài ra, sự khác biệt giữa bộ gen của tinh tinh và người là khoảng 1% (8MB). Sự khác biệt nhỏ này hoàn toàn không đủ để giải thích sự khác biệt về khả năng giữa con người và tinh tinh.
Khi nói đến lượng dữ liệu đã học, một đứa trẻ 2 tuổi nhìn thấy một lượng dữ liệu hình ảnh rất nhỏ, với khoảng 32 triệu giây (2x365x12x3600) trong tất cả thời gian học tập của mình.
Con người có 2 triệu sợi thần kinh quang học và mỗi sợi thần kinh truyền khoảng 10 byte mỗi giây. - Đó là tổng cộng 6E14 byte.
Ngược lại, đào tạo LLM thường có khối lượng dữ liệu là 1E13 token, khoảng 2E13 byte. Vì vậy, một đứa trẻ 2 tuổi chỉ nhận được dữ liệu gấp 30 lần LLM.
Bất kể lập luận của các ông lớn, các công ty công nghệ lớn như Google, Anthropic, Cohere, v.v., đang sử dụng giám sát quy trình hoặc các phương pháp giống như RLAIF để tạo ra các bộ dữ liệu được đào tạo trước, tốn rất nhiều tài nguyên.
Vì vậy, rõ ràng với mọi người rằng dữ liệu tổng hợp là một lối tắt để mở rộng tập dữ liệu của bạn. Trong ngắn hạn, rõ ràng chúng ta có thể sử dụng nó để tạo ra một số dữ liệu hữu ích.
Nhưng đây có phải là con đường đến tương lai? Chúng ta sẽ phải chờ câu trả lời.
Tài nguyên:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tian Yuandong dội gáo nước lạnh vào dự án Q* bí ẩn của OpenAI: dữ liệu tổng hợp không phải là vị cứu tinh AGI và khả năng bị giới hạn trong các bài toán đơn giản
Nguồn: New Zhiyuan
Phỏng đoán Q* tiếp tục phổ biến trong cộng đồng AI.
Mọi người đang suy đoán liệu Q* có phải là “Q-learning + A *” hay không.
Chuyên gia AI Fuchito Tian cũng phân tích chi tiết khả năng giả thuyết “Q*=Q-learning+A*” là như thế nào.
Đồng thời, ngày càng có nhiều người đánh giá rằng dữ liệu tổng hợp là tương lai của LLM.
Tuy nhiên, Tian Yuandong đã dội gáo nước lạnh vào câu nói này.
Q*=Q-learning+A, khả năng như thế nào
Tian Yuandong nói rằng dựa trên kinh nghiệm trong quá khứ của ông với OpenGo (một bản sao của AlphaZero), A * có thể được coi là một phiên bản MCTS xác định chỉ với giá trị (tức là heuristic) hàm Q.
Ngược lại, Go là một câu chuyện khác: ứng cử viên tiếp theo tương đối dễ dự đoán (chỉ bằng cách kiểm tra hình dạng địa phương), nhưng việc đánh giá tình hình trên bảng sẽ khó khăn hơn nhiều.
Đó là lý do tại sao chúng tôi cũng có các bot Go khá mạnh, nhưng chúng chỉ sử dụng các mạng chiến lược.
Q * huyền thoại, người đã có một bước nhảy vọt lớn trong việc giải quyết các vấn đề toán học, khả năng này là bao nhiêu?
Tian Yuandong nói rằng dự đoán của ông là hàm giá trị sẽ tương đối dễ thiết lập vì vấn đề toán học đầu vào đang được giải quyết (ví dụ, nó có thể được dự đoán từ đặc tả mục tiêu dưới dạng ngôn ngữ tự nhiên).
Nếu bạn muốn giải quyết một vấn đề toán học khó khăn và không biết làm thế nào để làm điều đó, cách tiếp cận này có thể không đủ.
Một số cư dân mạng bày tỏ sự hoài nghi, cho rằng: "Để A* có giá trị, cần có một chức năng heuristic có thể chứng minh, chấp nhận được và nhất quán. Nhưng tôi rất nghi ngờ bất cứ ai có thể đưa ra một hàm như vậy, bởi vì nó không dễ dàng để xác định giá trị của một chuỗi con. 」
** Ngay cả khi bạn làm một bài toán ở trường tiểu học, Q * dự kiến sẽ cao **
Bất cứ ai biết thậm chí một chút về các mô hình lớn đều biết rằng khả năng giải quyết các vấn đề toán học cơ bản có nghĩa là khả năng của một mô hình để làm như vậy là một bước nhảy vọt lớn.
Điều này là do các mô hình lớn khó khái quát hóa bên ngoài dữ liệu được đào tạo.
Charles Higgins, đồng sáng lập công ty khởi nghiệp đào tạo AI Tromero, nói rằng vấn đề chính gây khó khăn cho các mô hình lớn hiện nay là làm thế nào để suy luận logic về các khái niệm trừu tượng và nếu đạt được bước này, chắc chắn sẽ là một bước nhảy vọt.
Toán học là nghiên cứu về lý luận biểu tượng, ví dụ, nếu X lớn hơn Y và Y lớn hơn Z, thì X lớn hơn Z.
Theo đồng sáng tạo Tromero Sophia Kalanovska, điều này có ý nghĩa biểu tượng rất quan trọng, nhưng ở cấp độ thực tế, nó khó có thể kết thúc thế giới.
Vậy tại sao lại có tin đồn rằng “Q* đã xuất hiện trong nguyên mẫu của AGI”?
Kalanovska lập luận rằng, theo các tuyên bố hiện tại, Q có thể kết hợp hai bên não và hiểu mọi thứ từ kinh nghiệm trong khi lý luận về các sự kiện.
Hạn chế lớn nhất của các mô hình hiện tại là chúng chỉ có thể lấy lại thông tin từ dữ liệu đào tạo, nhưng không thể suy luận và phát triển ý tưởng mới.
Giải quyết vấn đề vô hình là một bước quan trọng trong việc tạo ra AGI.
Nhưng nếu LLM thực sự có thể giải quyết các vấn đề mới, vô hình, đó là một vấn đề lớn, ngay cả khi các bài toán được thực hiện tương đối đơn giản.
** Dữ liệu tổng hợp là chìa khóa cho tương lai của LLM?**
Vậy, dữ liệu tổng hợp có phải là vua không?
Sự bùng nổ của Q* đã gây ra rất nhiều suy đoán giữa các ông lớn, và các ông lớn suy đoán rằng “tài nguyên máy tính khổng lồ cho phép mô hình mới giải quyết một số vấn đề toán học nhất định” có thể là RLAIF (học tăng cường từ phản hồi AI).
RLAIF là một công nghệ thay thế các tùy chọn gắn thẻ của con người từ các LLM có sẵn, làm cho các hoạt động căn chỉnh chống lại LLM có thể mở rộng hơn bằng cách tự động hóa phản hồi của con người.
Điều này có nghĩa là dữ liệu tổng hợp là vua và sử dụng cấu trúc cây cung cấp ngày càng nhiều tùy chọn cho sau này, để đi đến câu trả lời đúng.
Cách đây không lâu, Jim Fan đã tweet rằng dữ liệu tổng hợp sẽ cung cấp hàng nghìn tỷ dữ liệu đào tạo chất lượng cao tiếp theo.
Jim Fan cũng trích dẫn bài viết “Bài học cay đắng” của Richard S. Sutton để minh họa rằng chỉ có hai mô hình trong sự phát triển của AI có thể được mở rộng vô hạn thông qua tính toán: học tập và tìm kiếm.
"Đó là sự thật vào năm 2019 tại thời điểm viết bài báo này, và nó đúng ngày hôm nay, tôi cá là cho đến ngày chúng tôi giải quyết AGI. 」
Richard S. Sutton là thành viên của Hiệp hội Hoàng gia Canada và Hiệp hội Hoàng gia, và ông được coi là một trong những người sáng lập ra học tăng cường tính toán hiện đại, có một số đóng góp đáng kể cho lĩnh vực này, bao gồm học tập chênh lệch thời gian và phương pháp gradient chiến lược.
Một cách tiếp cận chung thúc đẩy máy tính cuối cùng là hiệu quả và hiệu quả nhất. Nhưng lý do cho điều này là Định luật Moore, hay chính xác hơn là do sự suy giảm theo cấp số nhân liên tục về chi phí trên mỗi đơn vị máy tính.
Ban đầu, các nhà nghiên cứu đã làm việc để tránh tìm kiếm bằng cách khai thác kiến thức của con người hoặc các tính năng đặc biệt của trò chơi, tất cả đều có vẻ không liên quan khi tìm kiếm được áp dụng hiệu quả trên quy mô lớn.
Một lần nữa, các phương pháp thống kê đã chiến thắng các phương pháp dựa trên tri thức của con người, dẫn đến những thay đổi đáng kể trong toàn bộ lĩnh vực xử lý ngôn ngữ tự nhiên, nơi thống kê và tính toán dần trở nên thống trị trong nhiều thập kỷ.
Các nhà nghiên cứu AI thường cố gắng xây dựng kiến thức vào các hệ thống, điều này có thể hữu ích trong ngắn hạn, nhưng có thể cản trở tiến bộ hơn nữa về lâu dài.
Những đột phá cuối cùng sẽ đạt được thông qua cách tiếp cận dựa trên tìm kiếm và học hỏi.
Nội dung thực tế của tâm trí là vô cùng phức tạp, và chúng ta nên ngừng cố gắng tìm ra những cách đơn giản để thể hiện suy nghĩ, và thay vào đó chúng ta chỉ nên xây dựng các phương pháp siêu hình có thể tìm và nắm bắt sự phức tạp tùy ý này.
Về dữ liệu tổng hợp, Musk cũng nói rằng con người thực sự không thể đánh bại máy móc.
Về vấn đề này, Jim Fan đã tương tác với Musk và nói:
Jim Fan nghĩ rằng RLAIF, hoặc RLAIF từ phản hồi nền tảng, sẽ đi một chặng đường dài nếu được thu nhỏ chính xác. Ngoài ra, dữ liệu tổng hợp bao gồm các trình mô phỏng, về nguyên tắc có thể giúp LLM phát triển các mô hình thế giới.
Về giọng hát và sự hòa âm của hai người, LeCun nói rằng anh ấy có vài điều muốn nói:
Vì vậy, sử dụng nhiều dữ liệu hơn (tổng hợp hoặc không tổng hợp) là một biện pháp tạm thời, đơn giản vì cách tiếp cận hiện tại của chúng tôi có những hạn chế.
Về vấn đề này, cư dân mạng ủng hộ “phe dữ liệu lớn” bày tỏ sự không hài lòng:
LeCun sau đó đã đưa ra một ví dụ để giải thích rằng phương tiện duy nhất được con người sử dụng để thực hiện kết quả của hàng triệu năm tiến hóa là gen và lượng dữ liệu trong bộ gen của con người rất nhỏ, chỉ 800MB.
Ngoài ra, sự khác biệt giữa bộ gen của tinh tinh và người là khoảng 1% (8MB). Sự khác biệt nhỏ này hoàn toàn không đủ để giải thích sự khác biệt về khả năng giữa con người và tinh tinh.
Khi nói đến lượng dữ liệu đã học, một đứa trẻ 2 tuổi nhìn thấy một lượng dữ liệu hình ảnh rất nhỏ, với khoảng 32 triệu giây (2x365x12x3600) trong tất cả thời gian học tập của mình.
Con người có 2 triệu sợi thần kinh quang học và mỗi sợi thần kinh truyền khoảng 10 byte mỗi giây. - Đó là tổng cộng 6E14 byte.
Ngược lại, đào tạo LLM thường có khối lượng dữ liệu là 1E13 token, khoảng 2E13 byte. Vì vậy, một đứa trẻ 2 tuổi chỉ nhận được dữ liệu gấp 30 lần LLM.
Bất kể lập luận của các ông lớn, các công ty công nghệ lớn như Google, Anthropic, Cohere, v.v., đang sử dụng giám sát quy trình hoặc các phương pháp giống như RLAIF để tạo ra các bộ dữ liệu được đào tạo trước, tốn rất nhiều tài nguyên.
Vì vậy, rõ ràng với mọi người rằng dữ liệu tổng hợp là một lối tắt để mở rộng tập dữ liệu của bạn. Trong ngắn hạn, rõ ràng chúng ta có thể sử dụng nó để tạo ra một số dữ liệu hữu ích.
Nhưng đây có phải là con đường đến tương lai? Chúng ta sẽ phải chờ câu trả lời.
Tài nguyên: