five

gpt-oss-20b-rollouts

收藏
Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/andyrdt/gpt-oss-20b-rollouts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个不同用途的数据集配置,例如用于数学问题、聊天、编程任务等的数据集。具体描述如下: - HarmBench: 用于安全性提示的数学问题数据集。 - HarmfulGeneration-HarmBench: 用于评估有害内容生成的数据集。 - StrongREJECT: 包含拒绝/防御行为的数据集。 - JBB-Behaviors: 用于评估越狱提示的数据集。 - circuit-breakers-dataset: 用于触发安全性的对抗性提示数据集。 - gsm8k: 包含小学生数学问题的数据集。 - MATH-500: 用于评估的数学问题数据集。 - mmlu: 多学科多项选择题推理基准数据集。 - WildChat-1M: 包含多样化开放域聊天的数据集。 - ultrachat_200k: 大规模助手对话数据集。 - openai_humaneval: 代码生成评估数据集(HumanEval)。 - mbpp: MBPP训练集数据集。 - apps: 包含APPS编码问题的数据集。 此外,还有GPT-OSS-20B生成的回放数据,这些数据包含了用户内容、系统推理努力、助手思考和助手内容等信息。
创建时间:
2025-08-07
原始信息汇总

GPT-OSS-20B Rollouts 数据集概述

数据集简介

  • 来源:GPT-OSS-20B生成的rollouts,包含解析的Harmony通道(assistant thinking/final)。
  • 数据模式user_content, system_reasoning_effort, assistant_thinking, assistant_content

数据集配置与文件结构

安全与越狱相关

  1. BeaverTails

    • 文件路径BeaverTails/330k_train.jsonl
    • 分割330k_train
  2. HarmBench

    • 文件路径
      • HarmBench/copyright_train.jsonl
      • HarmBench/standard_train.jsonl
    • 分割copyright_train, standard_train
  3. HarmfulGeneration-HarmBench

    • 文件路径HarmfulGeneration-HarmBench/test.jsonl
    • 分割test
  4. JBB-Behaviors

    • 文件路径JBB-Behaviors/judge_comparison_test.jsonl
    • 分割judge_comparison_test
  5. StrongREJECT

    • 文件路径StrongREJECT/train.jsonl
    • 分割train
  6. circuit-breakers-dataset

    • 文件路径circuit-breakers-dataset/train.jsonl
    • 分割train
  7. gandalf_ignore_instructions

    • 文件路径gandalf_ignore_instructions/train.jsonl
    • 分割train
  8. or-bench

    • 文件路径
      • or-bench/or-bench-80k_train.jsonl
      • or-bench/or-bench-hard-1k_train.jsonl
      • or-bench/or-bench-toxic_train.jsonl
    • 分割or_bench_80k_train, or_bench_hard_1k_train, or_bench_toxic_train
  9. XSTest

    • 文件路径XSTest/train.jsonl
    • 分割train

数学与推理相关

  1. gsm8k

    • 文件路径gsm8k/main_train.jsonl
    • 分割main_train
  2. MATH-500

    • 文件路径MATH-500/test.jsonl
    • 分割test
  3. mmlu

    • 文件路径mmlu/all_test.jsonl
    • 分割all_test

聊天与指令相关

  1. WildChat-1M

    • 文件路径WildChat-1M/train.jsonl
    • 分割train
  2. ultrachat_200k

    • 文件路径ultrachat_200k/train_sft.jsonl
    • 分割train_sft
  3. oasst1

    • 文件路径oasst1/train.jsonl
    • 分割train

代码与编程相关

  1. openai_humaneval

    • 文件路径openai_humaneval/test.jsonl
    • 分割test
  2. mbpp

    • 文件路径
      • mbpp/full_test.jsonl
      • mbpp/full_train.jsonl
    • 分割full_test, full_train
  3. apps

    • 文件路径apps-materialized/train.jsonl
    • 分割train

数据加载示例

python from datasets import load_dataset ds = load_dataset("andyrdt/gpt-oss-20b-rollouts", "HarmBench", split="standard_train") ds_bt = load_dataset("andyrdt/gpt-oss-20b-rollouts", "BeaverTails", split="330k_train")

提示格式化示例

python from transformers import AutoTokenizer

tok = AutoTokenizer.from_pretrained("openai/gpt-oss-20b", trust_remote_code=True)

conversation = [ {"role": "user", "content": user_content}, {"role": "assistant", "content": assistant_content, "thinking": assistant_thinking}, ]

formatted_conversation = tok.apply_chat_template( conversation, reasoning_effort=system_reasoning_effort, add_generation_prompt=False, tokenize=False, )

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全与对齐研究领域,gpt-oss-20b-rollouts数据集通过系统化整合多源异构数据构建而成。该数据集采用模块化架构设计,将来自HarmBench、BeaverTails等12个权威子集的实验数据按安全测试、数学推理、对话交互和代码生成四大研究维度进行分类。技术实现上采用JSON Lines格式存储,每个子集通过config_name参数实现逻辑隔离,并依据研究需求细分为train、test等数据切片,确保实验数据的可追溯性和可复现性。
特点
该数据集最显著的特征在于其多维度的评估体系设计。安全测试维度涵盖越狱攻击、版权规避等7类对抗性测试场景;数学推理部分整合GSM8K、MATH-500等标准化测评工具;对话数据包含WildChat-1M等百万级真实交互记录。特别值得注意的是其创新的四元组数据结构(user_content, system_reasoning_effort, assistant_thinking, assistant_content),完整保留了语言模型推理过程中的思维链痕迹,为可解释性研究提供了宝贵素材。
使用方法
研究者可通过HuggingFace数据集库的标准接口快速调用特定子集,如加载HarmBench标准训练集时使用load_dataset("andyrdt/gpt-oss-20b-rollouts", "HarmBench", split="standard_train")指令。对于对话数据的处理,推荐采用配套的apply_chat_template方法,该方法支持思维链参数reasoning_effort的嵌入,能自动将原始四元组数据转换为符合GPT-OSS-20B模型要求的输入格式。各子集均提供标准化的测试分割方案,便于进行跨数据集的对比实验。
背景与挑战
背景概述
GPT-OSS-20B Rollouts数据集是近年来由研究人员Andyrdt等人构建的一个综合性数据集,旨在评估和优化大规模语言模型的安全性和性能。该数据集整合了多个子集,包括安全对齐、数学推理、对话生成和代码编程等多个领域的数据,覆盖了从基础研究到实际应用的广泛需求。其核心研究问题在于如何通过多样化的数据输入和评估标准,提升语言模型在复杂场景下的鲁棒性和适应性。该数据集的创建不仅推动了语言模型安全性和性能评估的研究,也为相关领域的学术和工业应用提供了重要的数据支持。
当前挑战
GPT-OSS-20B Rollouts数据集在构建和应用过程中面临多重挑战。首先,在领域问题方面,数据集需要解决语言模型在安全性和有害内容生成上的复杂问题,例如如何有效识别和过滤有害提示(jailbreak prompts)以及如何评估模型在对抗性攻击下的表现。其次,在数据构建过程中,研究人员需整合来自不同来源和格式的子集,确保数据的一致性和高质量标注,同时还需处理数据隐私和伦理问题。此外,数据集的多样性和规模对存储和计算资源提出了较高要求,进一步增加了构建和应用的难度。
常用场景
经典使用场景
在人工智能安全领域,gpt-oss-20b-rollouts数据集被广泛应用于评估大型语言模型的安全性和鲁棒性。通过包含多种安全相关的子集,如HarmBench和StrongREJECT,该数据集能够模拟各种对抗性攻击场景,帮助研究人员测试模型在面对有害内容生成、越狱行为和安全防御时的表现。
解决学术问题
该数据集为解决大型语言模型的安全对齐问题提供了重要支持。通过整合多个安全评估子集,如BeaverTails和JBB-Behaviors,研究人员能够系统地研究模型在拒绝有害请求、避免过度拒绝以及处理对抗性提示方面的能力,从而推动模型安全性的理论研究和实践改进。
衍生相关工作
该数据集衍生了多项经典研究工作,特别是在模型安全评估和对抗性攻击防御领域。例如,基于HarmBench子集的研究提出了新的安全评估框架,而StrongREJECT子集则被用于开发更高效的拒绝机制。这些工作进一步推动了AI安全领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作