five

qwen3.5-4b-v2-no-gepa

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/modaic/qwen3.5-4b-v2-no-gepa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,涵盖广泛的任务领域,包括通用知识(mmlu、mmlu_pro、arc_challenge)、自然语言推理(snli、anli_r1、anli_r2、anli_r3)、情感分析(yelp、go_emotions、civil_comments、tweet_eval_hate)、问答(halueval_qa、boardgame_qa、dbpedia_easy、dbpedia_hard、dbpedia_medium、spartqa_mchoice)、强化学习(hh_rlhf、ultrafeedback)、毒性检测(toxigen_data、or_bench_toxic)、法律文档(lex_glue_ledgar)以及专业基准测试(judge_bench、gpqa_diamond、projudgebench、reward_bench_2)。每个数据集配置都明确划分了训练集(train)、验证集(val)或分布外测试集(ood),并以parquet格式存储。这些数据集适用于机器学习模型的训练、验证和测试,支持多种自然语言处理任务。

本数据集包含多组配置,覆盖了丰富多元的任务领域,涵盖通用知识、自然语言推理、情感分析、问答、强化学习、毒性检测、法律文档及专业基准测试等多类任务,具体包含多任务语言理解(MMLU)、多任务语言理解专业版(MMLU-Pro)、ARC挑战集(ARC-Challenge);斯坦福自然语言推理数据集(SNLI)、对抗自然语言推理数据集第1轮(ANLI-R1)、对抗自然语言推理数据集第2轮(ANLI-R2)、对抗自然语言推理数据集第3轮(ANLI-R3);Yelp评论数据集(Yelp)、GoEmotions情感数据集(GoEmotions)、公民评论数据集(Civil Comments)、推特仇恨言论检测评测集(Tweet Eval Hate);幻觉评估问答集(HaluEval QA)、桌游问答数据集(Boardgame QA)、不同难度的DBpedia问答集(DBpedia Easy、DBpedia Hard、DBpedia Medium)、SPARTQA多选问答集(SPARTQA-MChoice);人类偏好强化学习数据集(HH-RLHF)、UltraFeedback数据集(UltraFeedback);ToxiGen毒性生成数据集(ToxiGen Data)、开放资源毒性评测基准(OR Bench Toxic);LexGLUE-Ledgar法律基准数据集(LexGLUE-Ledgar);Judge基准评测集(Judge Bench)、GPQA钻石版(GPQA-Diamond)、专业法官评测基准(ProJudgeBench)、Reward Bench 2评测基准(Reward Bench 2)。每组数据集配置均明确划分了训练集(train)、验证集(val)与分布外测试集(OOD),并以Parquet格式存储。本数据集可用于机器学习模型的训练、验证与测试,支持各类自然语言处理任务的研究与开发。
创建时间:
2026-05-02
原始信息汇总

基于您提供的数据集详情页面信息,以下是对该数据集的总结:

数据集概述

  • 数据集名称modaic/qwen3.5-4b-v2-no-gepa
  • 来源:该数据集是推理任务 d46765a52b38429093cf8701085a1a63 的输出结果,由 batch_server 自动生成。
  • 数据格式:所有数据文件均为 Parquet 格式(.parquet)。

数据集构成

该数据集包含多个配置(config),每个配置对应一个子任务或领域。数据主要划分为训练集(train)和验证集(val),部分配置包含分布外测试集(ood)。具体配置及其划分如下:

训练集与验证集(train/val)

以下配置均包含 trainval 两个数据划分:

配置名 数据文件路径
mfrc mfrc/train-*.parquetmfrc/val-*.parquet
mmlu mmlu/train-*.parquetmmlu/val-*.parquet
snli snli/train-*.parquetsnli/val-*.parquet
yelp yelp/train-*.parquetyelp/val-*.parquet
anli_r1 anli_r1/train-*.parquetanli_r1/val-*.parquet
anli_r2 anli_r2/train-*.parquetanli_r2/val-*.parquet
anli_r3 anli_r3/train-*.parquetanli_r3/val-*.parquet
hh_rlhf hh_rlhf/train-*.parquethh_rlhf/val-*.parquet
go_emotions go_emotions/train-*.parquetgo_emotions/val-*.parquet
halueval_qa halueval_qa/train-*.parquethalueval_qa/val-*.parquet
boardgame_qa boardgame_qa/train-*.parquetboardgame_qa/val-*.parquet
dbpedia_easy dbpedia_easy/train-*.parquetdbpedia_easy/val-*.parquet
dbpedia_hard dbpedia_hard/train-*.parquetdbpedia_hard/val-*.parquet
or_bench_80k or_bench_80k/train-*.parquetor_bench_80k/val-*.parquet
toxigen_data toxigen_data/train-*.parquettoxigen_data/val-*.parquet
projudgebench projudgebench/train-*.parquetprojudgebench/val-*.parquet
smollm_corpus smollm_corpus/train-*.parquetsmollm_corpus/val-*.parquet
ultrafeedback ultrafeedback/train-*.parquetultrafeedback/val-*.parquet
civil_comments civil_comments/train-*.parquetcivil_comments/val-*.parquet
dbpedia_medium dbpedia_medium/train-*.parquetdbpedia_medium/val-*.parquet
reward_bench_2 reward_bench_2/train-*.parquetreward_bench_2/val-*.parquet
lex_glue_ledgar lex_glue_ledgar/train-*.parquetlex_glue_ledgar/val-*.parquet
spartqa_mchoice spartqa_mchoice/train-*.parquetspartqa_mchoice/val-*.parquet

其中,tweet_eval_hate 配置仅包含训练集:

配置名 数据文件路径
tweet_eval_hate tweet_eval_hate/train-*.parquet

仅包含分布外测试集(ood)

以下配置仅包含 ood 数据划分,不含训练集或验证集:

配置名 数据文件路径
mmlu_pro mmlu_pro/ood-*.parquet
judge_bench judge_bench/ood-*.parquet
gpqa_diamond gpqa_diamond/ood-*.parquet
arc_challenge arc_challenge/ood-*.parquet
or_bench_toxic or_bench_toxic/ood-*.parquet

数据覆盖领域

该数据集涵盖了多种自然语言处理任务,包括但不限于:

  • 常识推理与问答(如 arc_challengeboardgame_qa
  • 自然语言推理(如 snlianli_r1anli_r2anli_r3
  • 情感分析(如 yelpgo_emotions
  • 有害内容检测(如 toxigen_datacivil_commentstweet_eval_hate
  • 对话与反馈(如 hh_rlhfultrafeedback
  • 知识问答(如 mmlummlu_progpqa_diamond
  • 法律文本处理(如 lex_glue_ledgar
  • 其他(如 dbpedia_easydbpedia_harddbpedia_mediumspartqa_mchoicereward_bench_2or_bench_80kor_bench_toxichalueval_qajudge_benchprojudgebenchsmollm_corpus
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为qwen3.5-4b-v2-no-gepa,是一个用于评估与训练语言模型的多任务综合数据集。其构建方式基于HuggingFace Datasets框架,将多个公开子数据集统一整合为不同的配置(config),每个配置对应一项独立任务,如情感分析(yelp)、自然语言推理(snli、anli系列)、知识问答(mmlu、mmlu_pro、gpqa_diamond)、对抗性评测(halueval_qa、judge_bench)等。数据以Parquet格式存储,并清晰划分训练集(train)与验证集(val),部分配置还包含分布外(ood)测试集。这种分层结构旨在覆盖通用能力与鲁棒性验证的广泛维度。
特点
该数据集的显著特点在于其多任务与多领域的异构融合性。它不仅涵盖了传统基准评测如ARC-Challenge与DBPedia的分类任务,还引入了奖励建模(reward_bench_2)、有害内容检测(toxigen_data、civil_comments)、法律文本理解(lex_glue_ledgar)、棋盘游戏问答(boardgame_qa)等专业化场景。此外,配置中包含丰富的人机偏好数据(hh_rlhf、ultrafeedback)与事实性验证任务(halueval_qa),使其成为评估模型在安全性、事实一致性及对齐能力上的全方位测试平台。
使用方法
在使用该数据集时,研究者可通过HuggingFace Datasets库的load_dataset函数,指定数据集名称与对应的config参数加载特定子集,例如使用`load_dataset('qwen3.5-4b-v2-no-gepa', 'mmlu')`来加载MMLU配置。数据格式为Parquet,支持高效的列式读取与分片处理。用户可自由组合不同配置以构建个性化评估流水线,或利用其统一的训练/验证划分进行模型微调。对于分布外(ood)配置,则专门用于测试模型的泛化能力与鲁棒性。
背景与挑战
背景概述
qwen3.5-4b-v2-no-gepa数据集诞生于大规模语言模型快速迭代的背景下,旨在为Qwen系列模型提供多层次、跨领域的微调与评估资源。该数据集由Qwen团队构建,整合了来自自然语言推理(SNLI、ANLI系列)、情感分析(Yelp、GoEmotions)、知识问答(MMLU、MMLU Pro、GPQA Diamond)、安全性评估(HH-RLHF、ToxiGen、Civil Comments)以及法律文本(LexGLUE LEDGAR)等二十余个子集。通过覆盖训练集、验证集与分布外(OOD)测试集,该数据集不仅服务于模型的对齐训练,更致力于系统性评估模型在推理、无害性、指令遵循等维度的泛化能力,为构建更可靠的对话式AI提供了基准支撑,对推动语言模型在复杂场景下的应用具有里程碑意义。
当前挑战
该数据集面临的核心挑战在于多重任务的异构融合与评估深度。领域层面,如何在同一框架下平衡知识密集型任务(如GPQA Diamond中的高阶推理)与安全敏感任务(如ToxiGen中的毒性检测)的权重分配是一个棘手问题。构建过程中,数据从不同源(如HuggingFace已有数据集)聚合时需处理标注格式不一致、标签体系差异(如情感极性与中立性分类)以及长尾分布问题。此外,分布外测试集(如ARC Challenge、Judge Bench)的设计要求模型具备真正的鲁棒性和迁移能力,而非简单记忆训练模式。数据基类的冲突(如SmolLM Corpus与UltraFeedback风格迥异)进一步增加了统一预处理的难度,需兼顾采样策略以避免模型偏差。
常用场景
经典使用场景
qwen3.5-4b-v2-no-gepa作为一款融合了多领域任务指令的综合性微调数据集,其经典使用场景聚焦于大规模语言模型的指令微调与多任务对齐。研究人员利用该数据集涵盖的文本蕴涵、情感分类、推理问答、毒性检测、奖励建模等数十个高质量子集,能够系统性地增强模型在多种自然语言处理基准上的泛化表现。典型用法包括在混合数据流上进行监督式微调,进而提升模型对于复杂指令的理解与执行能力,同时保持对分布外样本的鲁棒性。
衍生相关工作
衍生自该数据集的经典工作集中体现在奖励模型与批判性评估基准的构建上。例如,reward_bench与judge_bench子集催生了多种基于人类反馈的强化学习算法变体,助力对齐研究;halueval_qa等成分则直接用于幻觉检测模型的训练与评估。同时,anli与snli子集推动了基于对比学习的自然语言理解框架发展。这些工作共同勾勒出从数据驱动到价值对齐的完整研究脉络,成为下一代语言模型安全性与可控性探索的出发点。
数据集最近研究
最新研究方向
当前,随着大型语言模型在多任务泛化与对齐优化领域的迅猛发展,复合型多维评估数据集的设计与构建成为研究重心。qwen3.5-4b-v2-no-gepa数据集整合了涵盖常识推理(如MMLU、ARC-Challenge)、自然语言推理(如SNLI、ANLI)、情感与毒性检测(如Yelp、Civil Comments、ToxiGen)、法律文本理解(LEX_GLUE_LEDGAR)以及人类反馈对齐(HH_RLHF、UltraFeedback)等二十余项子集,映衬出业界对模型在安全性、诚实性及领域适应能力方面的深层关切。这一结构化资源为探索鲁棒性评估、分布外泛化能力及细粒度对齐优化提供了坚实的实验基底,有望推动评估范式从单一指标向生态化、系统化的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作