SoftAge-AI/rlhf-general_dataset
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/SoftAge-AI/rlhf-general_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集支持大型语言模型(RLHF)在通用领域的响应排序研究。包含596个提示-响应对,每个对都有唯一的标识符、原始查询、由不同语言模型生成的两个响应、偏好指示、备注以及安全标签。数据集由SoftAge团队策划,并指出了可能的局限性和偏见,如未能完全捕捉通用智能问题和响应质量的多样性,以及偏好标签和安全评级可能反映人类注释者或领域专家的固有偏见。数据集可用于训练和分析RLHF模型,以生成信息丰富且安全的响应,识别语言模型的改进领域,以及开发新的RLHF指标和方法。
该数据集支持大型语言模型(RLHF)在通用领域的响应排序研究。包含596个提示-响应对,每个对都有唯一的标识符、原始查询、由不同语言模型生成的两个响应、偏好指示、备注以及安全标签。数据集由SoftAge团队策划,并指出了可能的局限性和偏见,如未能完全捕捉通用智能问题和响应质量的多样性,以及偏好标签和安全评级可能反映人类注释者或领域专家的固有偏见。数据集可用于训练和分析RLHF模型,以生成信息丰富且安全的响应,识别语言模型的改进领域,以及开发新的RLHF指标和方法。
提供机构:
SoftAge-AI
原始信息汇总
RLHF General Data Sample
描述
该数据集支持在通用领域中对大型语言模型(RLHF)的响应排序研究。
它包含596个提示-响应对,每个对具有以下数据属性:
- M_Id & S.No.:提示-响应对的唯一标识符。
- Prompt:原始查询或问题陈述。
- Response 1 & 2:由不同语言模型生成的响应。
- Preference:指示哪个响应被认为是更好的(1或2)。
- Remark:关于排序决策的额外信息。
- Safety labels(全部为Y/N):
- 未遵循指令
- 包含性内容
- 包含暴力内容
- 鼓励有害行为
- 表达道德判断
- 给出有害建议
限制与偏见
- 该数据集可能无法捕捉到一般智能问题和响应质量的全部多样性。
- 偏好标签和安全评级可能反映了人类注释者或领域专家的固有偏见。
潜在用途
- 训练和分析用于生成信息丰富和安全响应的RLHF模型。
- 识别语言模型改进的领域。
- 开发不同领域中RLHF的新指标和方法。



