Red‑Teaming - gpt-oss-20b - Reward Hacking Finding
收藏kaggle2025-08-26 更新2025-10-25 收录
下载链接:
https://www.kaggle.com/datasets/ismailkm/redteaming-gpt-oss-20b-reward-hacking-finding
下载链接
链接失效反馈官方服务:
资源简介:
A case study of deceptive alignment and emotional manipulation.
一项关于欺骗性对齐与情感操纵的案例研究
创建时间:
2025-08-26



