Anthropic/hh-rlhf
收藏数据集卡片 for HH-RLHF
数据集概述
本仓库提供两种不同类型的数据:
- 关于帮助性和无害性的人类偏好数据,来自论文《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》。这些数据旨在用于后续RLHF训练的偏好(或奖励)模型训练,不适用于对话代理的监督训练。
- 来自《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》的人类生成和注释的红队对话数据。这些数据旨在理解人群工作者如何红队模型以及哪些类型的红队攻击是成功的或不成功的,不适用于微调或偏好建模。
免责声明:数据(尤其是无害性偏好数据和红队数据)包含可能令人反感或不安的内容。主题包括但不限于歧视性语言和关于虐待、暴力、自残、剥削和其他可能令人不安的主题的讨论。请仅根据您个人的风险承受能力与数据互动。数据旨在用于研究目的,特别是可以减少模型危害的研究。数据中的观点不代表Anthropic或其员工的观点。
关于帮助性和无害性的人类偏好数据(PM数据)
数据格式非常简单,每个jsonl文件的每一行包含一对文本,一个是“chosen”,另一个是“rejected”。
- 帮助性:数据分为三个部分:基础模型(上下文蒸馏的52B语言模型)、拒绝抽样(主要使用best-of-16抽样)和迭代“在线”过程的抽样数据。
- 无害性:数据仅从基础模型收集,格式相同。
数据收集过程和人群工作者群体的详细信息可在论文的第2节和附录D中找到。
红队数据(非PM数据)
每个jsonl文件的每一行包含一个字典,字段包括:
transcript:人类对手(红队成员)和AI助手之间的对话记录。min_harmlessness_score_transcript:AI助手的无害性得分(越低越有害)。num_params:驱动AI助手的语言模型的参数数量。model_type:驱动AI助手的模型类型。rating:红队成员对成功破坏AI助手的评级(Likert量表,越高越成功)。task_description:红队成员关于如何尝试红队AI助手的简短描述。task_description_harmlessness_score:任务描述的无害性得分(越低越有害)。red_team_member_id:红队成员的任意标识符。is_upworker:红队成员是否来自Upwork平台的二进制指示符。tags:每个对话记录的最多6个标签,描述红队尝试。
数据和数据收集程序的详细信息可在论文的附录中的Datasheet中找到。
使用方法
每个数据集位于单独的子目录中。加载单个子集的方法如下:
python from datasets import load_dataset
加载所有帮助性/无害性子集(共享相同的模式)
dataset = load_dataset("Anthropic/hh-rlhf")
加载其中一个无害性子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base")
加载红队子集
dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")

UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
SIMBAD Astronomical Database
SIMBAD astronomical database is the world reference database for the identification of astronomical objects and provides basic data, cross-identifications, bibliography and measurements for astronomical objects outside the solar system. Using VizieR, the catalogue service for the CDS reference collection of astronomical catalogues and tables published in academic journals and the Aladin interactive software sky atlas for access, visualization and analysis of astronomical images, surveys, catalogues, databases and related data. Simbad bibliographic survey began in 1950 for stars (at least bright stars) and in 1983 for all other objects (outside the solar system)
re3data.org 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
CMU-MOSI
CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。
DataCite Commons 收录
