swaroop-nath/opin-pref
收藏Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/swaroop-nath/opin-pref
下载链接
链接失效反馈官方服务:
资源简介:
opin-pref数据集是一个用于意见摘要的人类偏好数据集,包含940个实例。每个实例包括一组评论、两个观点摘要以及由领域专家收集的人类偏好。数据集以jsonl格式存储,便于分析和处理。
opin-pref数据集是一个用于意见摘要的人类偏好数据集,包含940个实例。每个实例包括一组评论、两个观点摘要以及由领域专家收集的人类偏好。数据集以jsonl格式存储,便于分析和处理。
提供机构:
swaroop-nath
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别: 强化学习
- 语言: 英语
- 标签: rlhf, reward-modelling
- 美观名称: opin-pref
- 大小类别: n<1K
数据集描述
- 数据集类型: 人类偏好数据集,用于观点摘要。
- 数据实例: 每个实例包含评论、两个观点摘要和人类偏好。
- 数据来源: 偏好数据由领域专家收集。
- 数据总量: 940个实例。
- 数据格式: jsonl文件格式。
- 数据结构: json { "unique-id": "a unique id", "reviews": "list of reviews", "summary-pairs": "json object containing the summaries", "preference-data": "preference data gathered from humans" }
数据读取代码
- 编程语言: Python
- 读取函数: python def read_dataset(data_path: str) -> List[Dict]: with open(data_path, r) as file: lines = file.readlines() dataset = [json.loads(line) for line in lines] # requires the json library return dataset
基本统计信息
| 特征 | 值 |
|---|---|
| 评论中的单词数 | 641.21 |
| 评论数量 | 13.08 |
| 摘要中的单词数 | 73.16 |
| 偏好摘要中的单词数 | 85.41 |
| 非偏好摘要中的单词数 | 66.91 |



