qwen3.5-4b-v2-gepa

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/modaic/qwen3.5-4b-v2-gepa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集集合包含多个配置，每个配置对应不同的数据集，涵盖自然语言理解、对话系统、情感分析、法律文本分析等多个领域。每个数据集均以parquet格式存储，并包含训练集（train）、验证集（val）或分布外测试集（ood）的分割。具体数据集包括但不限于：MFrc、MMLU、SNLI、Yelp、ANLI（R1-R3）、HH RLHF、Go Emotions、HaluEval（QA、Dialogue、Summarization）、Judge Bench、DBPedia（Easy、Hard、Medium）、GPQA Diamond、OR Bench（80k、Toxic、Hard 1k）、Toxigen Data、ARC Challenge、ProJudgeBench、SmolLM Corpus、UltraFeedback、Civil Comments、Reward Bench 2、Lex Glue（LEDGAR、Case Hold）、SpartQA MChoice、Tweet Eval（Hate、Irony、Emotion、Offensive、Sentiment）、Code Judge Bench、Enron Email（Type、Quality、Reply Quality）、Medical Abstracts、AES2 Essay Scoring、SemEval 2010 Task 8、MusR（Team Allocation、Murder Mysteries、Object Placements）、Big Patent Innovation、Yahoo Answers Quality、WritingPrompts Quality、Colbert Humor Detection、Argument Quality Ranking、MT Bench Human Judgments、Chatbot Arena Conversations、Customer Support Tickets（EN、Gorkem）等。

创建时间：

2026-05-05

原始信息汇总

根据您提供的数据集详情页面README文件内容，以下是对该数据集的总结：

数据集概述

数据集名称：modaic/qwen3.5-4b-v2-gepa
数据集来源：由 batch_server 自动生成，对应任务ID为 0c45676c03e446a7a717032457c9f88b 的推理输出。

数据集结构

该数据集包含多个子集（config），每个子集对应一个特定的评估或训练任务。所有数据文件均为Parquet格式（.parquet）。

子集与划分

数据集共包含 54个配置（config），每个配置下通常包含训练集（train）和验证集（val），部分配置仅包含分布外测试集（ood）。具体如下：

包含 `train` 和 `val` 分割的子集（共43个）

mfrc, mmlu, snli, yelp, anli_r1, anli_r2, anli_r3, hh_rlhf, go_emotions, halueval_qa, boardgame_qa, dbpedia_easy, dbpedia_hard, or_bench_80k, toxigen_data, projudgebench, smollm_corpus, ultrafeedback, civil_comments, dbpedia_medium, reward_bench_2, lex_glue_ledgar, spartqa_mchoice, tweet_eval_hate, enron_email_type, or_bench_hard_1k, tweet_eval_irony, halueval_dialogue, medical_abstracts, aes2_essay_scoring, lex_glue_case_hold, tweet_eval_emotion, enron_email_quality, enron_reply_quality, sem_eval_2010_task_8, tweet_eval_offensive, tweet_eval_sentiment, big_patent_innovation, yahoo_answers_quality, writingprompts_quality, colbert_humor_detection, chatbot_arena_conversations, customer_support_tickets_en, customer_support_tickets_gorkem

仅包含 `ood` 分割的子集（共11个）

mmlu_pro, judge_bench, gpqa_diamond, arc_challenge, or_bench_toxic, code_judge_bench, rod101_essay_scoring, halueval_summarization, musr_team_allocation, musr_murder_mysteries, musr_object_placements, argument_quality_ranking, mt_bench_human_judgments

数据文件路径

每个子集的数据文件均存储在该数据集仓库的子目录中，路径遵循 {config_name}/{split}-*.parquet 的命名规则。例如：

mfrc 子集的训练数据文件路径为 mfrc/train-*.parquet
mmlu_pro 子集的分布外测试数据文件路径为 mmlu_pro/ood-*.parquet

任务类型覆盖

该数据集涵盖了多种自然语言处理任务，按子集名称可归纳为以下类别：

常识推理与问答：arc_challenge, gpqa_diamond, spartqa_mchoice
自然语言推理：anli_r1, anli_r2, anli_r3, snli
情感与情绪分析：tweet_eval_emotion, tweet_eval_sentiment, go_emotions
有害内容检测：toxigen_data, tweet_eval_hate, tweet_eval_offensive, civil_comments
幽默与讽刺检测：colbert_humor_detection, tweet_eval_irony
文本质量与评分：aes2_essay_scoring, rod101_essay_scoring, yahoo_answers_quality, writingprompts_quality
模型偏好与对齐：hh_rlhf, ultrafeedback, reward_bench_2, or_bench_80k, or_bench_hard_1k, or_bench_toxic, judge_bench, projudgebench, code_judge_bench, mt_bench_human_judgments, chatbot_arena_conversations
知识库与分类：dbpedia_easy, dbpedia_hard, dbpedia_medium, yelp, medical_abstracts, big_patent_innovation, sem_eval_2010_task_8
法律文本分析：lex_glue_ledgar, lex_glue_case_hold
对话与摘要：halueval_qa, halueval_dialogue, halueval_summarization, boardgame_qa
其他：enron_email_type, enron_email_quality, enron_reply_quality, customer_support_tickets_en, customer_support_tickets_gorkem, argument_quality_ranking, musr_team_allocation, musr_murder_mysteries, musr_object_placements, smollm_corpus, mfrc

搜集汇总

数据集介绍

构建方式

该数据集通过整合来自多源异构任务的公开数据构建而成，涵盖了自然语言理解、推理、情感分析、法律文本、医疗摘要、代码评估、对话质量等广泛领域。每个子数据集以独立的config_name标识，并统一采用高效的Parquet格式存储，分割为训练集与验证集（部分任务含OOD集），便于模块化加载与评估。

特点

数据集具有极高的多样性与任务覆盖度，包含超50个子集，横跨情感分类、逻辑推理、事实判别、法律判决、幽默检测、对话评估与安全性分析等场景。特别设计了分布外（OOD）测试集以衡量模型泛化能力，同时整合了如halueval、reward_bench等专项评测数据，适用于全面诊断语言模型的综合能力与潜在偏差。

使用方法

支持通过HuggingFace Datasets库按config_name灵活调用，例如`load_dataset('qwen3.5-4b-v2-gepa', 'mmlu', split='train')`。各子集已按标准划分，用户可依据任务需求选择对应配置，并利用Parquet文件的列式存储优势高效进行数据筛选、预处理与批量推理，适用于模型微调、鲁棒性测试与特定能力评估等场景。

背景与挑战

背景概述

qwen3.5-4b-v2-gepa数据集诞生于大规模语言模型能力评估与对齐研究的前沿领域，由阿里巴巴通义千问团队基于其Qwen3.5-4B模型研发过程中构建。该数据集核心研究问题在于系统性地评测并提升语言模型在多维度任务上的泛化表现与安全性，其影响力体现在为模型开发提供了涵盖自然语言推理、情感分析、伦理合规、事实一致性等50余种任务的标准化训练与验证基准。通过整合如MMLU、SNLI、HH-RLHF、ToxiGen等经典及前沿评测集，该数据集有效弥合了模型能力评估与真实世界部署需求之间的鸿沟。

当前挑战

该数据集所面临的领域挑战在于语言模型评估的全面性与公平性需求——单一基准难以覆盖模型在复杂推理、鲁棒性、有害内容识别及细粒度情感理解等维度的表现，而现有数据集常存在任务偏见或数据泄露风险。构建过程中遭遇的主要挑战包括：跨领域数据的异构格式统一与质量控制，多来源数据中标注不一致与噪声的过滤，以及在保持数据规模的同时确保各子集难度梯度合理分布，特别是面向OOD（分布外）评估场景的构建，需规避模型通过记忆捷径而非真实推理来取得高分的问题。

常用场景

经典使用场景

在自然语言处理与大型语言模型的训练与评估领域，qwen3.5-4b-v2-gepa数据集凭借其丰富的子任务配置，成为多维度能力检验的基石。研究者可基于其涵盖的推理、情感分析、自然语言推理、文本分类、对话质量评估及毒性检测等数十项任务，系统性地开展模型微调、指令遵循能力对齐以及鲁棒性验证。该数据集的标准训练-验证划分结构，使得模型在统一基准上的性能对比成为可能，为探索模型在不同语义粒度下的泛化能力提供了标准化平台。

衍生相关工作

围绕qwen3.5-4b-v2-gepa数据集，衍生了一系列经典研究工作，包括基于该数据集的奖励模型训练（如RewardBench）、基于对话质量的人类偏好对齐工作（如UltraFeedback与Chatbot Arena），以及面向鲁棒性的对抗样本生成方法。此外，针对代码理解与法律文本推理的专项子集（如CodeJudgeBench与LexGLUE），催生了面向特定领域的大模型评估新范式。这些衍生工作共同构成了一个从数据到模型再到应用的完整研究生态，推动了大语言模型评估从静态测试向动态适应能力的转变。

数据集最近研究