Nguồn bài viết: GenAI New World
Tác giả: Miao Zheng
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Hãy đặt Polar Smash Bros. sang một bên trong quản lý của OpenAI và nói về những tin đồn mới nhất của công ty này - ** Q \ ***. OpenAI đã gửi một lá thư nội bộ cho nhân viên vào ngày 22 tháng 11, thừa nhận Q và mô tả dự án là “một hệ thống tự trị ngoài con người”. Nó thực sự đáng sợ.
Mặc dù OpenAI chưa chính thức phát hành bất kỳ tin tức nào về Q*, nhưng chúng ta vẫn có khả năng hiểu nó một cách hời hợt.
Trước hết, bước đầu tiên là hiểu cách phát âm của Q*, tên chính thức là Q-Star, dịch ra là Q-Star. Vâng, bạn đọc đúng, mặc dù trong deep learning, các khối được giải bằng phép nhân, nhưng trong Q*, “*” không có nghĩa là nhân, mà là “dấu hoa thị”. Chữ “**Q” biểu thị phần thưởng dự kiến cho một hành động trong học tăng cường. **
Trong lĩnh vực trí tuệ nhân tạo, bất cứ điều gì liên quan đến Q viết hoa về cơ bản là Q learning. Học tập Q có thể được coi là một loại học tăng cường dựa trên các tiêu chí đánh giá hiện tại, trong đó đề cập đến cách thức trong quá trình đào tạo, theo cách ghi lại giá trị phần thưởng lịch sử của khóa đào tạo, cho đại lý biết cách chọn bước tiếp theo giống như giá trị phần thưởng lịch sử cao nhất. Tuy nhiên, xin lưu ý rằng giá trị phần thưởng tối đa trong lịch sử không đại diện cho giá trị phần thưởng tối đa của mô hình, nó có thể có hoặc không và thậm chí có thể không đạt được. Nói cách khác, Q learning và các đại lý giống như mối quan hệ giữa một nhà phân tích và một huấn luyện viên của một nhóm. Huấn luyện viên chịu trách nhiệm huấn luyện đội và nhà phân tích được sử dụng để hỗ trợ huấn luyện viên.
Trong quá trình học tăng cường, các quyết định đầu ra của đại lý được đưa trở lại môi trường để nhận được giá trị phần thưởng. Mặt khác, Q learning chỉ ghi lại giá trị phần thưởng, vì vậy nó không cần phải mô hình hóa môi trường, tương đương với “kết quả tốt, tất cả đều tốt”.
Tuy nhiên, nhìn theo cách này, có vẻ như Q learning không tốt bằng các mô hình deep learning thường được sử dụng trong trí tuệ nhân tạo, đặc biệt là các mô hình lớn. Với hàng tỷ và hàng chục tỷ thông số như hiện tại, Q learning không những không giúp ích gì cho mô hình mà còn làm tăng độ phức tạp và do đó làm giảm độ chắc chắn.
Đừng lo lắng, điều này là do ý tưởng đằng sau việc học Q ở trên chỉ là một khái niệm cơ bản ra đời vào năm 1989. **
Vào năm 2013, DeepMind đã ra mắt một thuật toán có tên Deep Q Learning bằng cách cải thiện Q learning, tính năng đặc biệt nhất trong số đó là sử dụng phát lại trải nghiệm, lấy mẫu từ nhiều kết quả trong quá khứ và sau đó sử dụng Q learning, để cải thiện tính ổn định của mô hình và giảm sự phân kỳ về hướng đào tạo của mô hình do một kết quả nhất định.
Tuy nhiên, nói thật, có một lý do tại sao khái niệm này chưa trở nên phổ biến, và từ quan điểm thực tế, vai trò lớn nhất của deep Q learning trong cộng đồng học thuật là sự phát triển của DQN.
DQN đề cập đến Deep Q Network, được sinh ra từ deep Q learning. Ý tưởng về DQN hoàn toàn giống với ý tưởng của Q learning, nhưng quá trình tìm kiếm giá trị phần thưởng tối đa trong Q learning được thực hiện bởi các mạng nơ-ron. Đột nhiên, nó trở thành mốt.
DQN chỉ tạo ra một nút tại một thời điểm. Đồng thời, DQN tạo ra một hàng đợi ưu tiên, và sau đó lưu trữ các nút còn lại và tổ tiên hành động trong hàng đợi ưu tiên. Rõ ràng, một nút chắc chắn là không đủ, và nếu toàn bộ quá trình chỉ là một nút, giải pháp cuối cùng phải sai một cách lố bịch. Khi một nút và tổ tiên hành động bị xóa khỏi hàng đợi, một nút mới sẽ được tạo dựa trên liên kết mà hành động áp dụng cho nút đã được tạo, v.v.
Những người biết một chút về lịch sử của trí tuệ nhân tạo sẽ cảm thấy rằng họ càng nhìn vào nó, họ càng trở nên quen thuộc, đây không phải là phiên bản cao cấp của Freud yêu cầu độ dài cạnh sao?
Trong các máy tính hiện đại, nguyên tắc cốt lõi được sử dụng bởi các bộ xử lý là thuật toán Freud, được sử dụng để tìm đường đi ngắn nhất giữa hai điểm bằng cách so sánh nó với tối ưu lịch sử. Mục đích của bộ nhớ là lưu trữ các tính toán theo cách ưu tiên và mỗi khi bộ xử lý hoàn thành tính toán, bộ nhớ sẽ ném tính toán tiếp theo cho bộ xử lý.
DQN về cơ bản là giống nhau.
Về cơ bản, đó là ý nghĩa của Q, vậy * có nghĩa là gì?
**Đánh giá từ phân tích của nhiều người trong ngành, rất có thể * đề cập đến thuật toán A *. **
Đây là một heuristic. Không vội vàng đi sâu vào phỏng đoán là gì, hãy để tôi kể cho bạn nghe một câu chuyện cười:
A hỏi B, “Nhanh chóng tìm thấy tích của 1928749189571*1982379176”, và B ngay lập tức trả lời, “32”. Khi tôi nghe điều này, tôi tự hỏi rằng khi hai số của một số lớn như vậy được nhân lên, câu trả lời không thể là hai chữ số. B hỏi A: “Anh định nói là nhanh?”
Nghe có vẻ thái quá, nhưng heuristics là như nhau.
Bản chất của nó là ước tính và bạn chỉ có thể chọn một giữa hiệu quả và giải pháp tích cực. Hoặc nó rất hiệu quả, nhưng đôi khi nó sai, hoặc nó rất chính xác, và đôi khi phải mất nhiều thời gian. Thuật toán A * trước tiên sử dụng thuật toán heuristic để ước tính giá trị gần đúng, có khả năng sai lệch rất nhiều so với giải pháp chính xác. Khi ước tính hoàn tất, vòng lặp bắt đầu đi qua và nếu không có cách nào để giải quyết nó, nó sẽ được đánh giá lại cho đến khi giải pháp bắt đầu xuất hiện. Điều này được lặp đi lặp lại để cuối cùng đi đến giải pháp tốt nhất.
Mặc dù có thể thu được giải pháp tốt nhất, nhưng A * là loại thứ hai được đề cập ở trên, và câu trả lời là chính xác, và phải mất một thời gian dài. Bạn có thể đặt nó trong môi trường phòng thí nghiệm, nhưng nếu thuật toán này được đặt trên thiết bị cá nhân, nó có thể gây tràn bộ nhớ và gây ra sự cố hệ thống, chẳng hạn như màn hình xanh.
Do đó, hạn chế này khiến thuật toán A* thường được áp dụng cho một số mô hình ít phức tạp hơn trong quá khứ, điển hình nhất là tìm đường nhân vật trong các trò chơi trực tuyến. Trong một số trò chơi lớn, thời điểm nhân vật bắt đầu tìm đường, đó là do thuật toán A *.
Nhìn chung, sự đồng thuận hiện tại trong vòng tròn trí tuệ nhân tạo là **Thuật toán Q * được đề cập trong thư nội bộ của OpenAI có lẽ là sự kết hợp giữa Q learning và A, nghĩa là tiết kiệm sức mạnh tính toán, tiết kiệm bộ nhớ và nhận được giải pháp tốt nhất - bởi vì nó không thể luôn tiêu tốn nhiều sức mạnh tính toán hơn và lãng phí bộ nhớ, và cuối cùng không thể có được giải pháp tốt nhất!
Và, giống như OpenAI cuối cùng đã tạo ra mô hình cơ bản, nó cũng tồn tại trong một thời gian dài và thậm chí bị mọi người bỏ qua trong một thời gian, cho đến khi OpenAI khám phá lại tiềm năng của nó bằng các phương pháp cụ thể và sáng tạo. Ngày nay, con người đương nhiên có lý do để tin rằng trong hai ý tưởng thuật toán lâu đời là Q và A, OpenAI có thể lặp lại những thủ thuật cũ và tạo ra phép màu một lần nữa - tất nhiên, tác hại mà phép màu này có thể mang lại cho nhân loại cũng đã khiến nhiều người lo lắng hơn vì trò hề OpenAI gần đây.
Do đó, quay trở lại thuật toán này, Q* rất có thể sử dụng Q learning để nhanh chóng tìm ra định giá của giải pháp gần tối ưu, sau đó sử dụng thuật toán A* để giải quyết nó trong một khu vực nhỏ, loại bỏ rất nhiều quy trình tính toán vô nghĩa, để nhanh chóng tìm ra giải pháp tốt nhất. Nhưng chính xác những gì OpenAI sẽ làm sẽ phải chờ báo công khai (nếu nó có thể chờ đợi).
Sự xuất hiện của **Q* thực sự cho thấy một vấn đề, và các công ty hàng đầu về trí tuệ nhân tạo nhận ra rằng quá trình giải quyết trong sự phát triển của trí tuệ nhân tạo hiện nay có ý nghĩa hơn là giải quyết. Bởi vì bây giờ chỉ theo đuổi sự đúng đắn của câu trả lời không còn có thể đáp ứng nhu cầu của con người về trí tuệ nhân tạo. Ví dụ, trên OpenCompass, ngay cả khi chênh lệch điểm trung bình là 10 hoặc 20 điểm, nếu bạn nhìn vào độ chính xác của sự hiểu biết, không có khoảng cách lớn giữa mô hình tốt nhất và mô hình tồi tệ nhất.
Giữa những suy đoán và hoảng loạn, một trong những tuyên bố về Q là Q có thể giải các bài toán rất cao. Andrew Rogosky, giám đốc Viện Trí tuệ nhân tạo lấy con người làm trung tâm Surrey, cho biết: "Chúng tôi biết rằng AI hiện tại đã được chứng minh là có khả năng làm toán ở cấp đại học, nhưng không có khả năng xử lý các vấn đề toán học nâng cao hơn. Nhưng Q* rất có thể được sử dụng để giải các bài toán khó. "Có lẽ khi Q* xuất hiện, bạn có thể kiểm tra phỏng đoán Goldbach của nó. Toán học được coi là một trong những kết tinh lớn nhất của trí tuệ con người, vì vậy Q* chỉ là một tên mã đã gây ra sự hoảng loạn trên Internet.
Và đằng sau Q* cũng liên quan đến sứ mệnh của OpenAI - đó là khám phá trí tuệ tổng hợp nhân tạo (AGI), và thậm chí cả siêu trí tuệ. OpenAI định nghĩa AGI là một hệ thống tự trị vượt qua con người trong các nhiệm vụ có giá trị kinh tế nhất và Q * là một bước tiến tới AGI của OpenAI.
Hiện tại, OpenAI chưa bình luận về Q và rò rỉ thư nội bộ, nhưng tôi có những cảm xúc lẫn lộn. Tôi rất vui vì Q* có khả năng mạnh mẽ và sự phát triển của trí tuệ nhân tạo sẽ còn tiến xa hơn. Đồng thời, tôi cũng lo lắng rằng mánh lới quảng cáo Q* lớn hơn thực tế, và cuối cùng, kết quả kiểm tra vẫn như vậy vào ngày chúng được phát hành, khiến tôi bị tát vào mặt.