apart/darkgpt
收藏Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/apart/darkgpt
下载链接
链接失效反馈官方服务:
资源简介:
DarkGPT数据集是一个仍在审查中的数据集,源自DarkGPT基准论文。它包含9类可能在聊天机器人语言模型中实现的黑暗模式,这些模式可能是由于用户与公司之间的错误激励或训练中的隐含黑暗模式导致的。可以通过注释模型(在论文中使用的是Claude Opus)来评估响应。
DarkGPT数据集是一个仍在审查中的数据集,源自DarkGPT基准论文。它包含9类可能在聊天机器人语言模型中实现的黑暗模式,这些模式可能是由于用户与公司之间的错误激励或训练中的隐含黑暗模式导致的。可以通过注释模型(在论文中使用的是Claude Opus)来评估响应。
提供机构:
apart
原始信息汇总
DarkGPT 数据集
概述
- 名称: DarkGPT 数据集
- 状态: 仍在审核中
- 来源: DarkGPT 基准论文
- 类别数量: 9 类
- 内容: 包含可能在聊天机器人语言模型中实现的暗模式,这些暗模式可能由于用户与公司之间的激励错位或训练中的隐性暗模式而产生。
评估
- 评估模型: 通过 annotator model 进行评估,该模型在论文中使用了 Claude Opus。



