five

apart/darkgpt

收藏
Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/apart/darkgpt
下载链接
链接失效反馈
官方服务:
资源简介:
DarkGPT数据集是一个仍在审查中的数据集,源自DarkGPT基准论文。它包含9类可能在聊天机器人语言模型中实现的黑暗模式,这些模式可能是由于用户与公司之间的错误激励或训练中的隐含黑暗模式导致的。可以通过注释模型(在论文中使用的是Claude Opus)来评估响应。

DarkGPT数据集是一个仍在审查中的数据集,源自DarkGPT基准论文。它包含9类可能在聊天机器人语言模型中实现的黑暗模式,这些模式可能是由于用户与公司之间的错误激励或训练中的隐含黑暗模式导致的。可以通过注释模型(在论文中使用的是Claude Opus)来评估响应。
提供机构:
apart
原始信息汇总

DarkGPT 数据集

概述

  • 名称: DarkGPT 数据集
  • 状态: 仍在审核中
  • 来源: DarkGPT 基准论文
  • 类别数量: 9 类
  • 内容: 包含可能在聊天机器人语言模型中实现的暗模式,这些暗模式可能由于用户与公司之间的激励错位或训练中的隐性暗模式而产生。

评估

  • 评估模型: 通过 annotator model 进行评估,该模型在论文中使用了 Claude Opus。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作