SoftAge-AI/rlhf-qa_dataset
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/SoftAge-AI/rlhf-qa_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了133个不同类型的提示,包括编程、数学、常识、个人查询和写作任务。每个提示后都有一个由大型语言模型生成的答案和人类专家重写的答案,以及流畅性和感知效用评分。尽管数据集的规模和范围有限,但它展示了SoftAge在RLHF领域的能力。
提供机构:
SoftAge-AI
原始信息汇总
RLHF Q&A 数据集与引用
描述
该数据集包含133个不同类型的提示,包括编程、数学、常识、个人查询和写作任务。每个提示后跟有一个由大型语言模型(LLM)生成的答案和一个由人类专家重写的答案,以及流畅性和感知有用性的评分。尽管数据集规模和范围有限,但它展示了SoftAge在RLHF领域训练AI语言代理的能力。
数据属性
- 查询:原始提示或问题
- 答案:由大型语言模型生成的响应
- 作者答案:由领域专家人类作者重写的LLM答案
- 流畅性评分(1-7):人类对答案自然语言流畅性的评分
- 感知有用性评分(1-7):人类对答案帮助性和相关性的评分
- 链接:与查询答案相关的最多7个链接
局限性和偏差
- 数据集规模可能无法全面代表每种查询类型的全部复杂性。
- 人类偏见可能影响所提供答案的质量和评分。
- 参考链接的选择可能反映作者的先验知识或搜索策略。
潜在用途
- 训练RLHF模型以生成流畅且信息丰富的多提示重写。
- 评估RLHF模型在不同领域的质量和有效性。
- 分析响应生成和评分中的人类偏好和偏差。
- 开发RLHF任务的新指标和评估方法。



