five

swaroop-nath/opin-pref

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/swaroop-nath/opin-pref
下载链接
链接失效反馈
官方服务:
资源简介:
opin-pref数据集是一个用于意见摘要的人类偏好数据集,包含940个实例。每个实例包括一组评论、两个观点摘要以及由领域专家收集的人类偏好。数据集以jsonl格式存储,便于分析和处理。

opin-pref数据集是一个用于意见摘要的人类偏好数据集,包含940个实例。每个实例包括一组评论、两个观点摘要以及由领域专家收集的人类偏好。数据集以jsonl格式存储,便于分析和处理。
提供机构:
swaroop-nath
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 强化学习
  • 语言: 英语
  • 标签: rlhf, reward-modelling
  • 美观名称: opin-pref
  • 大小类别: n<1K

数据集描述

  • 数据集类型: 人类偏好数据集,用于观点摘要。
  • 数据实例: 每个实例包含评论、两个观点摘要和人类偏好。
  • 数据来源: 偏好数据由领域专家收集。
  • 数据总量: 940个实例。
  • 数据格式: jsonl文件格式。
  • 数据结构: json { "unique-id": "a unique id", "reviews": "list of reviews", "summary-pairs": "json object containing the summaries", "preference-data": "preference data gathered from humans" }

数据读取代码

  • 编程语言: Python
  • 读取函数: python def read_dataset(data_path: str) -> List[Dict]: with open(data_path, r) as file: lines = file.readlines() dataset = [json.loads(line) for line in lines] # requires the json library return dataset

基本统计信息

特征
评论中的单词数 641.21
评论数量 13.08
摘要中的单词数 73.16
偏好摘要中的单词数 85.41
非偏好摘要中的单词数 66.91
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作