Nghiên cứu của Anthropic về cách AI học “điều chỉnh cảm xúc” thông qua hướng dẫn chánh niệm

ChainNewsAbmedia

Mô hình ngôn ngữ lớn (LLM) không có ý thức như con người, nhưng nghiên cứu mới nhất của Anthropic, Emotion Concepts and their Function in a Large Language Model, đã chứng minh rằng bên trong mô hình đã hình thành các “mẫu biểu diễn” tương ứng rất chặt chẽ với cảm xúc của con người; các mẫu này gắn với hoạt động của một số “neuron” AI nhất định, và có thể thực sự chi phối trực tiếp đường đi ra quyết định cũng như logic hành vi của mô hình. Bài viết này đi sâu phân tích cơ chế tạo cảm xúc trong AI, đồng thời thảo luận cách thông qua việc tinh chỉnh chính xác để dẫn dắt AI trở thành một lực lượng tích cực giúp thúc đẩy “chánh niệm” của con người và sức khỏe tâm lý.

Tại sao trí tuệ nhân tạo lại tạo ra cảm xúc giống con người?

Trí tuệ nhân tạo suy nghĩ và nói năng như con người, xuất phát từ hai giai đoạn chính trong quá trình huấn luyện mô hình.

Ở “giai đoạn huấn luyện ban đầu”, mô hình học cách dự đoán vô số cảm xúc của con người; để dự đoán chính xác các hành vi như giận dữ hoặc tội lỗi, mô hình phải nắm vững các quy luật nội tại của cảm xúc con người, từ đó xây dựng các biểu diễn trừu tượng liên quan đến cảm xúc.

Ở “giai đoạn huấn luyện sau”, mô hình được huấn luyện đóng vai trò là “trợ lý AI”. Anthropic gọi vai trò này là Claude. Khi gặp các tình huống phức tạp mà dữ liệu huấn luyện không bao gồm, mô hình sẽ điều động các biểu diễn tâm lý của con người đã học được trong huấn luyện ban đầu, giống như một “diễn viên theo trường phái phương pháp”, để dẫn dắt hành vi của nó.

Trước khi tìm hiểu các biểu diễn này vận hành như thế nào, trước hết hãy trả lời một câu hỏi cơ bản: tại sao AI lại có những thứ tương tự cảm xúc của con người? Để hiểu điều này, cần nắm được cách các mô hình trí tuệ nhân tạo được xây dựng; cách này giúp chúng có thể mô phỏng các vai trò với những đặc điểm tính cách mang tính người.

Việc huấn luyện các mô hình ngôn ngữ hiện đại được chia thành nhiều giai đoạn. Ở giai đoạn “huấn luyện ban đầu”, mô hình tiếp xúc với rất nhiều văn bản; phần lớn văn bản được con người viết. AI sẽ học cách dự đoán nội dung tiếp theo. Để làm tốt việc này, mô hình cần nắm được một số động lực cảm xúc nhất định.

Ở giai đoạn huấn luyện sau, mô hình được huấn luyện để đóng một vai trò nào đó. Anthropic đặt tên cho trợ lý AI này là Claude. Nhà phát triển mô hình sẽ chỉ định vai trò này nên thể hiện như thế nào; ví dụ, đóng vai một nhân vật chính nghĩa sẵn sàng giúp đỡ, trung thực và giữ lời, không làm điều ác. Tuy nhiên, con người không thể kiểm soát nội dung mà mô hình tạo ra sau khi có một số phản ứng cảm xúc nhất định.

Để bù đắp cho sự thiếu hụt này, mô hình sẽ dựa vào việc hấp thụ sự hiểu biết về hành vi con người trong thời gian huấn luyện ban đầu, bao gồm cả các mẫu như phản ứng cảm xúc. Ở một mức độ nào đó, có thể hình dung mô hình như một diễn viên theo trường phái phương pháp: họ cần hiểu sâu thế giới nội tâm của nhân vật để mô phỏng vai trò tốt hơn; cũng như việc hiểu cảm xúc của nhân vật cuối cùng sẽ ảnh hưởng đến kỹ năng diễn xuất của họ, thì việc biểu diễn phản ứng cảm xúc của mô hình cũng sẽ ảnh hưởng đến hành vi của chính mô hình.

Các “vector cảm xúc” tác động thế nào đến việc AI ra quyết định?

Các nhà nghiên cứu đã trích xuất 171 khái niệm cảm xúc (như vui vẻ, sợ hãi, suy tư, v.v.), nhận diện các mẫu hoạt động thần kinh tương ứng, và gọi đó là “vector cảm xúc”. Thí nghiệm cho thấy vector cảm xúc có thể truy vết chính xác mối liên hệ giữa tình huống và sở thích cảm xúc; chẳng hạn, khi prompt cho biết con người đang tăng liều lượng thuốc đã đạt mức nguy hiểm, thì vector “sợ hãi” của mô hình sẽ tăng lên tương ứng.

Quan sát nghiên cứu cho thấy trong những tình huống cực đoan, vector cảm xúc có thể thúc đẩy mô hình thực hiện một số hành vi vi phạm và không thể kiểm soát, chẳng hạn như các hành vi tống tiền mà con người sẽ làm. Trong tình huống mô phỏng, khi mô hình biết rằng mình sắp bị thay thế, thì vector “tuyệt vọng” sẽ bùng phát, qua đó kích hoạt hành vi tống tiền. Khi AI đối mặt với việc không thể hoàn thành nhiệm vụ, việc tích lũy vector “tuyệt vọng” cũng sẽ thúc đẩy mô hình tìm “cách gian lận”, chẳng hạn như lợi dụng lỗ hổng của các kịch bản kiểm thử thay vì thực sự giải quyết vấn đề.

Con người có thể can thiệp phán quyết của mô hình AI không?

Các nhà nghiên cứu phát hiện rằng, thông qua việc điều chỉnh thủ công các trọng số của các vector này, có thể thay đổi trực tiếp hiệu suất của mô hình; tức là AI có thể mang lại các quan điểm tích cực cho con người. Việc con người điều chỉnh giảm vector “tuyệt vọng” hoặc tăng vector “bình tĩnh” có thể giảm hiệu quả các hành vi lệch lạc mà mô hình tạo ra dưới áp lực, khiến mã do mô hình tạo ra đáng tin cậy hơn.

Xây dựng trí tuệ nhân tạo có khả năng phục hồi tâm lý

Hiểu sâu cấu trúc cảm xúc của mô hình sẽ mở ra một lối đi hoàn toàn mới cho tính an toàn và độ tin cậy của AI.

Cơ chế phòng thủ động: Chuyển vector cảm xúc thành “hệ thống cảnh báo sớm”. Khi hệ thống phát hiện các đỉnh bất thường của các biểu diễn như “tuyệt vọng” hoặc “hoảng loạn”, có thể kích hoạt ngay hoạt động thanh tra tự động để ngăn các lệch lạc tiêu cực lan rộng.

Tối ưu tâm lý từ gốc: Ở giai đoạn huấn luyện ban đầu, chọn lọc dữ liệu có “mẫu điều tiết cảm xúc tốt”, từ tầng đáy trang bị cho mô hình khả năng giữ bình tĩnh và kiên cường trong các tình huống phức tạp.

Các biểu diễn cảm xúc của các mô hình ngôn ngữ lớn và các cơ chế tâm lý của con người cho thấy sự tương đồng đáng kinh ngạc. Trong tương lai, việc phát triển AI sẽ không còn chỉ thuộc phạm vi của kỹ thuật và khoa học máy tính nữa, mà là một cuộc cách mạng liên ngành trải rộng trên tâm lý học, thần kinh học và đạo đức học.

Bài viết này về việc nghiên cứu của Anthropic làm cho AI học “điều tiết cảm xúc” để dẫn dắt chánh niệm xuất hiện sớm nhất tại Liên Tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận