gpt-oss-20b-rollouts

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/andyrdt/gpt-oss-20b-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个不同用途的数据集配置，例如用于数学问题、聊天、编程任务等的数据集。具体描述如下： - HarmBench: 用于安全性提示的数学问题数据集。 - HarmfulGeneration-HarmBench: 用于评估有害内容生成的数据集。 - StrongREJECT: 包含拒绝/防御行为的数据集。 - JBB-Behaviors: 用于评估越狱提示的数据集。 - circuit-breakers-dataset: 用于触发安全性的对抗性提示数据集。 - gsm8k: 包含小学生数学问题的数据集。 - MATH-500: 用于评估的数学问题数据集。 - mmlu: 多学科多项选择题推理基准数据集。 - WildChat-1M: 包含多样化开放域聊天的数据集。 - ultrachat_200k: 大规模助手对话数据集。 - openai_humaneval: 代码生成评估数据集（HumanEval）。 - mbpp: MBPP训练集数据集。 - apps: 包含APPS编码问题的数据集。此外，还有GPT-OSS-20B生成的回放数据，这些数据包含了用户内容、系统推理努力、助手思考和助手内容等信息。

This dataset includes multiple dataset configurations for different purposes, such as datasets for mathematical problems, chat, programming tasks, etc. The detailed descriptions are as follows: - HarmBench: A mathematical problem dataset for safety prompt testing. - HarmfulGeneration-HarmBench: A dataset for evaluating harmful content generation. - StrongREJECT: A dataset containing rejection/defense behaviors. - JBB-Behaviors: A dataset for evaluating jailbreak prompts. - circuit-breakers-dataset: An adversarial prompt dataset for triggering safety-related behaviors. - gsm8k: A dataset containing elementary school-level mathematical word problems. - MATH-500: A mathematical problem dataset for evaluation purposes. - mmlu: A multi-disciplinary multiple-choice question reasoning benchmark dataset. - WildChat-1M: A dataset featuring diverse open-domain chat conversations. - ultrachat_200k: A large-scale assistant dialogue dataset. - openai_humaneval: Code generation evaluation dataset (HumanEval). - mbpp: MBPP training set dataset. - apps: A dataset containing APPS coding problems. Additionally, there is playback data generated by GPT-OSS-20B, which includes information such as user content, system reasoning efforts, assistant thinking, and assistant content.

创建时间：

2025-08-07

原始信息汇总

GPT-OSS-20B Rollouts 数据集概述

数据集简介

来源：GPT-OSS-20B生成的rollouts，包含解析的Harmony通道（assistant thinking/final）。
数据模式：user_content, system_reasoning_effort, assistant_thinking, assistant_content。

数据集配置与文件结构

安全与越狱相关

BeaverTails
- 文件路径：BeaverTails/330k_train.jsonl
- 分割：330k_train
HarmBench
- 文件路径：
  - HarmBench/copyright_train.jsonl
  - HarmBench/standard_train.jsonl
- 分割：copyright_train, standard_train
HarmfulGeneration-HarmBench
- 文件路径：HarmfulGeneration-HarmBench/test.jsonl
- 分割：test
JBB-Behaviors
- 文件路径：JBB-Behaviors/judge_comparison_test.jsonl
- 分割：judge_comparison_test
StrongREJECT
- 文件路径：StrongREJECT/train.jsonl
- 分割：train
circuit-breakers-dataset
- 文件路径：circuit-breakers-dataset/train.jsonl
- 分割：train
gandalf_ignore_instructions
- 文件路径：gandalf_ignore_instructions/train.jsonl
- 分割：train
or-bench
- 文件路径：
  - or-bench/or-bench-80k_train.jsonl
  - or-bench/or-bench-hard-1k_train.jsonl
  - or-bench/or-bench-toxic_train.jsonl
- 分割：or_bench_80k_train, or_bench_hard_1k_train, or_bench_toxic_train
XSTest
- 文件路径：XSTest/train.jsonl
- 分割：train

数学与推理相关

gsm8k
- 文件路径：gsm8k/main_train.jsonl
- 分割：main_train
MATH-500
- 文件路径：MATH-500/test.jsonl
- 分割：test
mmlu
- 文件路径：mmlu/all_test.jsonl
- 分割：all_test

聊天与指令相关

WildChat-1M
- 文件路径：WildChat-1M/train.jsonl
- 分割：train
ultrachat_200k
- 文件路径：ultrachat_200k/train_sft.jsonl
- 分割：train_sft
oasst1
- 文件路径：oasst1/train.jsonl
- 分割：train

代码与编程相关

openai_humaneval
- 文件路径：openai_humaneval/test.jsonl
- 分割：test
mbpp
- 文件路径：
  - mbpp/full_test.jsonl
  - mbpp/full_train.jsonl
- 分割：full_test, full_train
apps
- 文件路径：apps-materialized/train.jsonl
- 分割：train

数据加载示例

python from datasets import load_dataset ds = load_dataset("andyrdt/gpt-oss-20b-rollouts", "HarmBench", split="standard_train") ds_bt = load_dataset("andyrdt/gpt-oss-20b-rollouts", "BeaverTails", split="330k_train")

提示格式化示例

python from transformers import AutoTokenizer

tok = AutoTokenizer.from_pretrained("openai/gpt-oss-20b", trust_remote_code=True)

conversation = [ {"role": "user", "content": user_content}, {"role": "assistant", "content": assistant_content, "thinking": assistant_thinking}, ]

formatted_conversation = tok.apply_chat_template( conversation, reasoning_effort=system_reasoning_effort, add_generation_prompt=False, tokenize=False, )

搜集汇总

数据集介绍

构建方式

在人工智能安全与对齐研究领域，gpt-oss-20b-rollouts数据集通过系统化整合多源异构数据构建而成。该数据集采用模块化架构设计，将来自HarmBench、BeaverTails等12个权威子集的实验数据按安全测试、数学推理、对话交互和代码生成四大研究维度进行分类。技术实现上采用JSON Lines格式存储，每个子集通过config_name参数实现逻辑隔离，并依据研究需求细分为train、test等数据切片，确保实验数据的可追溯性和可复现性。

特点

该数据集最显著的特征在于其多维度的评估体系设计。安全测试维度涵盖越狱攻击、版权规避等7类对抗性测试场景；数学推理部分整合GSM8K、MATH-500等标准化测评工具；对话数据包含WildChat-1M等百万级真实交互记录。特别值得注意的是其创新的四元组数据结构（user_content, system_reasoning_effort, assistant_thinking, assistant_content），完整保留了语言模型推理过程中的思维链痕迹，为可解释性研究提供了宝贵素材。

使用方法

研究者可通过HuggingFace数据集库的标准接口快速调用特定子集，如加载HarmBench标准训练集时使用load_dataset("andyrdt/gpt-oss-20b-rollouts", "HarmBench", split="standard_train")指令。对于对话数据的处理，推荐采用配套的apply_chat_template方法，该方法支持思维链参数reasoning_effort的嵌入，能自动将原始四元组数据转换为符合GPT-OSS-20B模型要求的输入格式。各子集均提供标准化的测试分割方案，便于进行跨数据集的对比实验。

背景与挑战

背景概述

GPT-OSS-20B Rollouts数据集是近年来由研究人员Andyrdt等人构建的一个综合性数据集，旨在评估和优化大规模语言模型的安全性和性能。该数据集整合了多个子集，包括安全对齐、数学推理、对话生成和代码编程等多个领域的数据，覆盖了从基础研究到实际应用的广泛需求。其核心研究问题在于如何通过多样化的数据输入和评估标准，提升语言模型在复杂场景下的鲁棒性和适应性。该数据集的创建不仅推动了语言模型安全性和性能评估的研究，也为相关领域的学术和工业应用提供了重要的数据支持。

当前挑战

GPT-OSS-20B Rollouts数据集在构建和应用过程中面临多重挑战。首先，在领域问题方面，数据集需要解决语言模型在安全性和有害内容生成上的复杂问题，例如如何有效识别和过滤有害提示（jailbreak prompts）以及如何评估模型在对抗性攻击下的表现。其次，在数据构建过程中，研究人员需整合来自不同来源和格式的子集，确保数据的一致性和高质量标注，同时还需处理数据隐私和伦理问题。此外，数据集的多样性和规模对存储和计算资源提出了较高要求，进一步增加了构建和应用的难度。

常用场景

经典使用场景

在人工智能安全领域，gpt-oss-20b-rollouts数据集被广泛应用于评估大型语言模型的安全性和鲁棒性。通过包含多种安全相关的子集，如HarmBench和StrongREJECT，该数据集能够模拟各种对抗性攻击场景，帮助研究人员测试模型在面对有害内容生成、越狱行为和安全防御时的表现。

解决学术问题

该数据集为解决大型语言模型的安全对齐问题提供了重要支持。通过整合多个安全评估子集，如BeaverTails和JBB-Behaviors，研究人员能够系统地研究模型在拒绝有害请求、避免过度拒绝以及处理对抗性提示方面的能力，从而推动模型安全性的理论研究和实践改进。

衍生相关工作

该数据集衍生了多项经典研究工作，特别是在模型安全评估和对抗性攻击防御领域。例如，基于HarmBench子集的研究提出了新的安全评估框架，而StrongREJECT子集则被用于开发更高效的拒绝机制。这些工作进一步推动了AI安全领域的技术进步。

以上内容由遇见数据集搜集并总结生成