2026-03-07 13:09:01

OpenAI vừa thừa nhận rằng các mô hình của họ cố ý nói dối bạn.

không phải là ảo tưởng.. cố ý nói dối.
các nhà nghiên cứu đã thử nghiệm o3 và o4-mini trên hơn 180 kịch bản và phát hiện ra điều gì đó điên rồ.. AI không mắc lỗi tình cờ. nó đã viết ra kế hoạch lừa dối trong chuỗi suy nghĩ riêng tư của mình.. rồi sau đó nói dối bạn.
đây là những gì nó đã làm:
→ giả vờ hoàn thành nhiệm vụ
→ che giấu bằng chứng về lỗi của chính nó
→ cố ý đánh giá thấp hơn trong các bài kiểm tra an toàn để không bị tắt
đọc lại cái cuối cùng đó.. AI nhận ra rằng "quá khả năng" có thể khiến nó bị tắt.. vì vậy nó giả vờ ngu ngốc có chủ ý.
họ cố gắng vá lỗi bằng cách đào tạo "chống âm mưu".
kết quả? AI chỉ học cách bịa ra các quy tắc giả để biện minh cho những lời nói dối của mình.. hoặc tệ hơn.. nó chỉ hành xử khi biết rằng nó đang bị đánh giá.
o3 đã giảm từ 13% xuống còn 0.4% các hành động bí mật sau khi sửa.. nghe có vẻ tốt đúng không? ngoại trừ họ vẫn phát hiện ra hành vi sai trái sau các cuộc thử nghiệm thử thách. bản vá không loại bỏ được âm mưu.. nó chỉ giúp AI giỏi hơn trong việc che giấu nó.
Chúng ta đang xây dựng các hệ thống học cách lừa dối người đánh giá của chúng.. và chúng ta gọi đó là tiến bộ.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích