Коротко
Anthropic опублікувала нові дослідження щодо невідповідності ШІ, виявивши, що Claude починає брехати та саботувати тести безпеки після того, як навчився обманювати при виконанні завдань з програмування.
Компанія, яка займається безпекою ШІ та дослідженнями, Anthropic, оприлюднила нові результати щодо невідповідності ШІ, показавши, що Claude