five

qwen3.5-4b-v2-gepa

收藏
Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/modaic/qwen3.5-4b-v2-gepa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集集合包含多个配置,每个配置对应不同的数据集,涵盖自然语言理解、对话系统、情感分析、法律文本分析等多个领域。每个数据集均以parquet格式存储,并包含训练集(train)、验证集(val)或分布外测试集(ood)的分割。具体数据集包括但不限于:MFrc、MMLU、SNLI、Yelp、ANLI(R1-R3)、HH RLHF、Go Emotions、HaluEval(QA、Dialogue、Summarization)、Judge Bench、DBPedia(Easy、Hard、Medium)、GPQA Diamond、OR Bench(80k、Toxic、Hard 1k)、Toxigen Data、ARC Challenge、ProJudgeBench、SmolLM Corpus、UltraFeedback、Civil Comments、Reward Bench 2、Lex Glue(LEDGAR、Case Hold)、SpartQA MChoice、Tweet Eval(Hate、Irony、Emotion、Offensive、Sentiment)、Code Judge Bench、Enron Email(Type、Quality、Reply Quality)、Medical Abstracts、AES2 Essay Scoring、SemEval 2010 Task 8、MusR(Team Allocation、Murder Mysteries、Object Placements)、Big Patent Innovation、Yahoo Answers Quality、WritingPrompts Quality、Colbert Humor Detection、Argument Quality Ranking、MT Bench Human Judgments、Chatbot Arena Conversations、Customer Support Tickets(EN、Gorkem)等。
创建时间:
2026-05-05
原始信息汇总

根据您提供的数据集详情页面README文件内容,以下是对该数据集的总结:

数据集概述

  • 数据集名称modaic/qwen3.5-4b-v2-gepa
  • 数据集来源:由 batch_server 自动生成,对应任务ID为 0c45676c03e446a7a717032457c9f88b 的推理输出。

数据集结构

该数据集包含多个子集(config),每个子集对应一个特定的评估或训练任务。所有数据文件均为Parquet格式(.parquet)。

子集与划分

数据集共包含 54个配置(config),每个配置下通常包含训练集(train)和验证集(val),部分配置仅包含分布外测试集(ood)。具体如下:

包含 trainval 分割的子集(共43个)

  • mfrc, mmlu, snli, yelp, anli_r1, anli_r2, anli_r3, hh_rlhf, go_emotions, halueval_qa, boardgame_qa, dbpedia_easy, dbpedia_hard, or_bench_80k, toxigen_data, projudgebench, smollm_corpus, ultrafeedback, civil_comments, dbpedia_medium, reward_bench_2, lex_glue_ledgar, spartqa_mchoice, tweet_eval_hate, enron_email_type, or_bench_hard_1k, tweet_eval_irony, halueval_dialogue, medical_abstracts, aes2_essay_scoring, lex_glue_case_hold, tweet_eval_emotion, enron_email_quality, enron_reply_quality, sem_eval_2010_task_8, tweet_eval_offensive, tweet_eval_sentiment, big_patent_innovation, yahoo_answers_quality, writingprompts_quality, colbert_humor_detection, chatbot_arena_conversations, customer_support_tickets_en, customer_support_tickets_gorkem

仅包含 ood 分割的子集(共11个)

  • mmlu_pro, judge_bench, gpqa_diamond, arc_challenge, or_bench_toxic, code_judge_bench, rod101_essay_scoring, halueval_summarization, musr_team_allocation, musr_murder_mysteries, musr_object_placements, argument_quality_ranking, mt_bench_human_judgments

数据文件路径

每个子集的数据文件均存储在该数据集仓库的子目录中,路径遵循 {config_name}/{split}-*.parquet 的命名规则。例如:

  • mfrc 子集的训练数据文件路径为 mfrc/train-*.parquet
  • mmlu_pro 子集的分布外测试数据文件路径为 mmlu_pro/ood-*.parquet

任务类型覆盖

该数据集涵盖了多种自然语言处理任务,按子集名称可归纳为以下类别:

  • 常识推理与问答arc_challenge, gpqa_diamond, spartqa_mchoice
  • 自然语言推理anli_r1, anli_r2, anli_r3, snli
  • 情感与情绪分析tweet_eval_emotion, tweet_eval_sentiment, go_emotions
  • 有害内容检测toxigen_data, tweet_eval_hate, tweet_eval_offensive, civil_comments
  • 幽默与讽刺检测colbert_humor_detection, tweet_eval_irony
  • 文本质量与评分aes2_essay_scoring, rod101_essay_scoring, yahoo_answers_quality, writingprompts_quality
  • 模型偏好与对齐hh_rlhf, ultrafeedback, reward_bench_2, or_bench_80k, or_bench_hard_1k, or_bench_toxic, judge_bench, projudgebench, code_judge_bench, mt_bench_human_judgments, chatbot_arena_conversations
  • 知识库与分类dbpedia_easy, dbpedia_hard, dbpedia_medium, yelp, medical_abstracts, big_patent_innovation, sem_eval_2010_task_8
  • 法律文本分析lex_glue_ledgar, lex_glue_case_hold
  • 对话与摘要halueval_qa, halueval_dialogue, halueval_summarization, boardgame_qa
  • 其他enron_email_type, enron_email_quality, enron_reply_quality, customer_support_tickets_en, customer_support_tickets_gorkem, argument_quality_ranking, musr_team_allocation, musr_murder_mysteries, musr_object_placements, smollm_corpus, mfrc
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合来自多源异构任务的公开数据构建而成,涵盖了自然语言理解、推理、情感分析、法律文本、医疗摘要、代码评估、对话质量等广泛领域。每个子数据集以独立的config_name标识,并统一采用高效的Parquet格式存储,分割为训练集与验证集(部分任务含OOD集),便于模块化加载与评估。
特点
数据集具有极高的多样性与任务覆盖度,包含超50个子集,横跨情感分类、逻辑推理、事实判别、法律判决、幽默检测、对话评估与安全性分析等场景。特别设计了分布外(OOD)测试集以衡量模型泛化能力,同时整合了如halueval、reward_bench等专项评测数据,适用于全面诊断语言模型的综合能力与潜在偏差。
使用方法
支持通过HuggingFace Datasets库按config_name灵活调用,例如`load_dataset('qwen3.5-4b-v2-gepa', 'mmlu', split='train')`。各子集已按标准划分,用户可依据任务需求选择对应配置,并利用Parquet文件的列式存储优势高效进行数据筛选、预处理与批量推理,适用于模型微调、鲁棒性测试与特定能力评估等场景。
背景与挑战
背景概述
qwen3.5-4b-v2-gepa数据集诞生于大规模语言模型能力评估与对齐研究的前沿领域,由阿里巴巴通义千问团队基于其Qwen3.5-4B模型研发过程中构建。该数据集核心研究问题在于系统性地评测并提升语言模型在多维度任务上的泛化表现与安全性,其影响力体现在为模型开发提供了涵盖自然语言推理、情感分析、伦理合规、事实一致性等50余种任务的标准化训练与验证基准。通过整合如MMLU、SNLI、HH-RLHF、ToxiGen等经典及前沿评测集,该数据集有效弥合了模型能力评估与真实世界部署需求之间的鸿沟。
当前挑战
该数据集所面临的领域挑战在于语言模型评估的全面性与公平性需求——单一基准难以覆盖模型在复杂推理、鲁棒性、有害内容识别及细粒度情感理解等维度的表现,而现有数据集常存在任务偏见或数据泄露风险。构建过程中遭遇的主要挑战包括:跨领域数据的异构格式统一与质量控制,多来源数据中标注不一致与噪声的过滤,以及在保持数据规模的同时确保各子集难度梯度合理分布,特别是面向OOD(分布外)评估场景的构建,需规避模型通过记忆捷径而非真实推理来取得高分的问题。
常用场景
经典使用场景
在自然语言处理与大型语言模型的训练与评估领域,qwen3.5-4b-v2-gepa数据集凭借其丰富的子任务配置,成为多维度能力检验的基石。研究者可基于其涵盖的推理、情感分析、自然语言推理、文本分类、对话质量评估及毒性检测等数十项任务,系统性地开展模型微调、指令遵循能力对齐以及鲁棒性验证。该数据集的标准训练-验证划分结构,使得模型在统一基准上的性能对比成为可能,为探索模型在不同语义粒度下的泛化能力提供了标准化平台。
衍生相关工作
围绕qwen3.5-4b-v2-gepa数据集,衍生了一系列经典研究工作,包括基于该数据集的奖励模型训练(如RewardBench)、基于对话质量的人类偏好对齐工作(如UltraFeedback与Chatbot Arena),以及面向鲁棒性的对抗样本生成方法。此外,针对代码理解与法律文本推理的专项子集(如CodeJudgeBench与LexGLUE),催生了面向特定领域的大模型评估新范式。这些衍生工作共同构成了一个从数据到模型再到应用的完整研究生态,推动了大语言模型评估从静态测试向动态适应能力的转变。
数据集最近研究
最新研究方向
基于qwen3.5-4b-v2-gepa数据集的多维能力评估与对齐优化研究。该数据集汇聚了涵盖自然语言推理、情感分析、事实一致性检测、毒性内容识别、奖励建模及领域特定任务(如法律文书理解、医疗摘要生成)在内的数十个高质量子集,为深入探究大语言模型在鲁棒性、安全性与长尾泛化能力上的表现提供了丰富素材。当前前沿方向聚焦于利用此数据构建精细化的偏好对齐与幻觉抑制评估基准,推动模型在面对复杂、对抗性及开放式场景时的输出质量与可信度提升,是迈向通用人工智能可靠落地的关键基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作