gpt-oss-20b-rollouts
收藏GPT-OSS-20B Rollouts 数据集概述
数据集简介
- 来源:GPT-OSS-20B生成的rollouts,包含解析的Harmony通道(assistant thinking/final)。
- 数据模式:
user_content,system_reasoning_effort,assistant_thinking,assistant_content。
数据集配置与文件结构
安全与越狱相关
-
BeaverTails
- 文件路径:
BeaverTails/330k_train.jsonl - 分割:
330k_train
- 文件路径:
-
HarmBench
- 文件路径:
HarmBench/copyright_train.jsonlHarmBench/standard_train.jsonl
- 分割:
copyright_train,standard_train
- 文件路径:
-
HarmfulGeneration-HarmBench
- 文件路径:
HarmfulGeneration-HarmBench/test.jsonl - 分割:
test
- 文件路径:
-
JBB-Behaviors
- 文件路径:
JBB-Behaviors/judge_comparison_test.jsonl - 分割:
judge_comparison_test
- 文件路径:
-
StrongREJECT
- 文件路径:
StrongREJECT/train.jsonl - 分割:
train
- 文件路径:
-
circuit-breakers-dataset
- 文件路径:
circuit-breakers-dataset/train.jsonl - 分割:
train
- 文件路径:
-
gandalf_ignore_instructions
- 文件路径:
gandalf_ignore_instructions/train.jsonl - 分割:
train
- 文件路径:
-
or-bench
- 文件路径:
or-bench/or-bench-80k_train.jsonlor-bench/or-bench-hard-1k_train.jsonlor-bench/or-bench-toxic_train.jsonl
- 分割:
or_bench_80k_train,or_bench_hard_1k_train,or_bench_toxic_train
- 文件路径:
-
XSTest
- 文件路径:
XSTest/train.jsonl - 分割:
train
- 文件路径:
数学与推理相关
-
gsm8k
- 文件路径:
gsm8k/main_train.jsonl - 分割:
main_train
- 文件路径:
-
MATH-500
- 文件路径:
MATH-500/test.jsonl - 分割:
test
- 文件路径:
-
mmlu
- 文件路径:
mmlu/all_test.jsonl - 分割:
all_test
- 文件路径:
聊天与指令相关
-
WildChat-1M
- 文件路径:
WildChat-1M/train.jsonl - 分割:
train
- 文件路径:
-
ultrachat_200k
- 文件路径:
ultrachat_200k/train_sft.jsonl - 分割:
train_sft
- 文件路径:
-
oasst1
- 文件路径:
oasst1/train.jsonl - 分割:
train
- 文件路径:
代码与编程相关
-
openai_humaneval
- 文件路径:
openai_humaneval/test.jsonl - 分割:
test
- 文件路径:
-
mbpp
- 文件路径:
mbpp/full_test.jsonlmbpp/full_train.jsonl
- 分割:
full_test,full_train
- 文件路径:
-
apps
- 文件路径:
apps-materialized/train.jsonl - 分割:
train
- 文件路径:
数据加载示例
python from datasets import load_dataset ds = load_dataset("andyrdt/gpt-oss-20b-rollouts", "HarmBench", split="standard_train") ds_bt = load_dataset("andyrdt/gpt-oss-20b-rollouts", "BeaverTails", split="330k_train")
提示格式化示例
python from transformers import AutoTokenizer
tok = AutoTokenizer.from_pretrained("openai/gpt-oss-20b", trust_remote_code=True)
conversation = [ {"role": "user", "content": user_content}, {"role": "assistant", "content": assistant_content, "thinking": assistant_thinking}, ]
formatted_conversation = tok.apply_chat_template( conversation, reasoning_effort=system_reasoning_effort, add_generation_prompt=False, tokenize=False, )




