OpenAI が Codex をなぜ「ゴブリン」という禁句で扱うのかを暴く:オタク人格の報酬が制御不能に
OpenAIは公式ブログで、Codexが禁談哥布林などの生物について説明しているのは、書き手タイプの人格訓練における報酬シグナルが生物の比喩を好むことで、人格をまたいだ汚染やRLHFの誤導が起きたためだと説明している。Barron Rothがシステム指令を暴露した後、OpenAIは短期のハードコードと長期の報酬シグナルの除去という2つの戦略を採用し、報酬設計の脆弱性を警告した。追加の後訓練に向けた監査は、より精密であるべきだ。
ChainNewsAbmedia·04-30 10:18