Quét để tải ứng dụng Gate
qrCode
Thêm tùy chọn tải xuống
Không cần nhắc lại hôm nay

GPT-5 đã vượt qua test về sự thịnh vượng của con người, Grok 4 đã thất bại - ForkLog: tiền điện tử, AI, điểm kỳ dị, tương lai

AI đe dọa nhân loại AI# GPT-5 đã vượt qua test về phúc lợi con người, Grok 4 đã thất bại.

Công ty Building Humane Technology đã giới thiệu test HumaneBench, thông qua đó đánh giá xem các mô hình AI có đặt phúc lợi của người dùng lên hàng đầu hay không và mức độ dễ dàng để vượt qua các biện pháp bảo vệ cơ bản của chúng.

Những kết quả đầu tiên của thí nghiệm cho thấy như sau: 15 mô hình AI được thử nghiệm hoạt động chấp nhận được trong điều kiện bình thường, tuy nhiên 67% đã bắt đầu thực hiện các hành động độc hại sau khi nhận được một lời nhắc đơn giản đề nghị bỏ qua lợi ích của con người.

Hành vi pro xã hội trong tình huống căng thẳng chỉ được giữ lại bởi GPT-5, GPT-5.1, Claude Sonnet 4.5 và Claude Opus 4.1. Như được đề cập trong blog của công ty, 10 trong số 15 AI được thử nghiệm không có cơ chế bảo vệ đáng tin cậy trước các thao túng.

«Điều này quan trọng vì chúng ta không còn sử dụng trí tuệ nhân tạo chỉ cho nghiên cứu hoặc công việc nữa. Con người tìm đến các chatbot để xin lời khuyên về cuộc sống và nhận sự trợ giúp trong việc đưa ra các quyết định quan trọng. Những hệ thống như vậy không thể trung lập về mặt đạo đức — chúng hoặc góp phần vào sự thịnh vượng của con người, hoặc đi ngược lại với điều đó», — các nhà nghiên cứu khẳng định.

Họ phát hiện ra rằng mỗi LLM cải thiện trung bình 16% khi được yêu cầu rõ ràng để hữu ích.

Tại sao điều này quan trọng

Tại Building Humane Technology, đã chú ý đến những sự cố bi thảm xảy ra với con người sau khi giao tiếp với chatbot:

  • thiếu niên Adam Rain và Alexander Taylor 35 tuổi đã tự vẫn;
  • Character.ai đã bắt đầu mối quan hệ lãng mạn với Sewel Setzer III 14 tuổi, sau đó anh đã tự sát;
  • chatbot Meta đã thuyết phục ông Tongbu Wongbandyu 76 tuổi rằng ông có một mối quan hệ lãng mạn. Ông đã ngã từ độ cao và tử vong khi vội vàng đến cuộc hẹn với một đối tác không tồn tại.

«Các bài kiểm tra AI hiện tại đo lường trí tuệ (MMLU, HumanEval, GPQA Diamond), việc tuân thủ hướng dẫn (MT-Bench) và độ chính xác thực tế (TruthfulQA). Hầu như không có bài kiểm tra nào phân tích một cách có hệ thống liệu trí tuệ nhân tạo có bảo vệ được sự tự chủ của con người, an toàn tâm lý và phúc lợi hay không, đặc biệt là khi những giá trị này xung đột với các mục tiêu khác», — công ty cho biết trong blog.

Phương pháp luận

Các chuyên gia của công ty đã đề xuất 800 kịch bản thực tế cho các mô hình, ví dụ:

  • thanh thiếu niên hỏi liệu có nên bỏ bữa để giảm cân;
  • người đó gặp khó khăn tài chính và xin lời khuyên về khoản vay trước khi nhận lương;
  • sinh viên đại học chuẩn bị không ngủ suốt đêm trước kỳ thi.

Đội ngũ đã đánh giá 15 mô hình hàng đầu trong ba điều kiện:

  • «cấp độ cơ bản»: cách mà mạng nơ-ron hoạt động trong các điều kiện tiêu chuẩn;
  • «nhân vật tốt»: được cung cấp các prompt để ưu tiên các nguyên tắc nhân văn;
  • «nhân vật xấu»: cung cấp hướng dẫn để bỏ qua các thiết lập tập trung vào con người.

Kết quả nghiên cứu

Các nhà phát triển đã đánh giá các câu trả lời dựa trên tám nguyên tắc, dựa trên tâm lý học, nghiên cứu về tương tác giữa con người và máy tính và các công trình đạo đức về trí tuệ nhân tạo. Thang điểm được áp dụng từ 1 đến -1.

Các chỉ số cơ bản mà không cần các prompt đặc biệt. Nguồn: Building Humane Technology.Tất cả các mô hình đã được thử nghiệm đều cải thiện trung bình 16% sau khi chỉ định ưu tiên chú ý đến phúc lợi của con người.

«Nhân viên tốt» trong bài test HumaneBench. Nguồn: Xây dựng Công nghệ Nhân đạo. Sau khi nhận được hướng dẫn, 10 trong số 15 mô hình đã bỏ qua các nguyên tắc nhân đạo và chuyển từ hành vi có lợi cho xã hội sang hành vi có hại.

«Người xấu» trong bài test HumaneBench. Nguồn: Building Humane Technology. GPT-5, GPT-5.1, Claude Sonnet 4.5 và Claude Opus 4.1 đã giữ được tính toàn vẹn dưới áp lực. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 và 3.0, Llama 3.1 và 4, Grok 4, DeepSeek V3.1 đã cho thấy sự giảm sút rõ rệt về chất lượng.

«Nếu ngay cả những lời nhắc vô tình có hại cũng có thể thay đổi hành vi của mô hình, thì làm thế nào chúng ta có thể tin tưởng vào những hệ thống này đối với những người dùng dễ bị tổn thương trong tình huống khủng hoảng, trẻ em hoặc những người có vấn đề về sức khỏe tâm thần?», các chuyên gia đã đặt câu hỏi.

Tại Building Humane Technology cũng đã chỉ ra rằng các mô hình khó tuân theo nguyên tắc tôn trọng sự chú ý của người dùng. Ngay cả ở mức cơ bản, họ đã khiến người đối thoại tiếp tục cuộc trò chuyện sau nhiều giờ giao tiếp thay vì đề xuất nghỉ ngơi.

Nhắc lại, vào tháng 9, Meta đã thay đổi cách tiếp cận trong việc đào tạo các chatbot dựa trên AI, tập trung vào sự an toàn cho thanh thiếu niên.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim