stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集
收藏数据集概述
数据集名称
Stanford Human Preferences Dataset (SHP)
数据集大小
385K 条数据
数据集任务类别
- 文本生成
- 问答
数据集标签
- 人类反馈
- RLHF
- 偏好
- 偏好模型
- RL
- NLG
- 评估
数据集语言
英语
数据集内容
SHP 包含 385K 条人类对回答问题/指令的偏好数据,涵盖 18 个不同领域,如烹饪、法律咨询等。每个示例包含一个 Reddit 帖子,一个问题/指令以及该帖子的两个顶级评论,其中一个评论被 Reddit 用户集体更偏好。
数据集结构
数据集分为 18 个目录,每个目录代表一个子论坛,每个目录包含用于训练、验证和测试的 JSONL 文件。
数据集用途
用于训练 RLHF 奖励模型和 NLG 评估模型。
数据集与其他数据集的区别
- 与 Anthropics HH-RLHF 数据集相比,SHP 的数据均为自然发生和人类编写,而 HH-RLHF 的回答是机器编写。
- 与 ELI5 数据集相比,SHP 使用时间戳信息推断偏好,而 ELI5 仅提供评论和分数。
数据集预处理
预处理保持最小化,包括扩展子论坛特定缩写和移除超链接中的 URL。
构建偏好模型
建议使用大型模型进行微调,如 FLAN-T5-xl,以预测人类偏好,并建议根据 score_ratio
报告性能曲线。
数据集限制
- SHP 不用于伤害最小化,不包含学习毒性检测所需的毒性内容。
- 更偏好的响应不一定更事实准确。
数据集许可证
根据 Reddit API 使用条款进行数据抓取,用户内容所有权归用户所有,Reddit 授予非独占、不可转让、不可再授权和可撤销的许可。
数据集联系信息
联系邮箱:kawin@stanford.edu
数据集创建者
Kawin Ethayarajh, Heidi (Chenyu) Zhang, Yizhong Wang, Dan Jurafsky

The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
ControlNet/WT-Data-Project
WT-DATA-PROJECT.DATA数据集包含了多个文件,主要涉及时间序列的战斗排名数据、Thunderskill数据、War Thunder Wiki数据以及这些数据的联合数据。时间序列数据包括不同国家的战斗评级、战斗次数、胜率等信息。Thunderskill数据提供了玩家在不同模式下的战斗统计数据。War Thunder Wiki数据则包含了游戏中各种载具的详细信息。联合数据则是将Thunderskill数据和War Thunder Wiki数据进行了整合,以便更好地利用两者的信息。
hugging_face 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
SDUST-Dataset
山东科技大学发布的用于故障诊断的SDUST数据集。
github 收录