ACSci/evaluation_0405

Name: ACSci/evaluation_0405
Creator: ACSci
Published: 2026-04-10 16:03:54
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ACSci/evaluation_0405

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: Qwen-Qwen3-4B-Instruct-2507 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 28252565 num_examples: 2886 download_size: 12662416 dataset_size: 28252565 - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-10 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 5534952 num_examples: 222 download_size: 1210240 dataset_size: 5534952 - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-20 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 5404616 num_examples: 222 download_size: 895738 dataset_size: 5404616 - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-28 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 5432368 num_examples: 222 download_size: 1014401 dataset_size: 5432368 - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-40 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 4950945 num_examples: 222 download_size: 799354 dataset_size: 4950945 - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-60 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 3903110 num_examples: 222 download_size: 723475 dataset_size: 3903110 - config_name: aicsi-rl-v00.00-step-000050 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 2501547 num_examples: 222 download_size: 1240818 dataset_size: 2501547 - config_name: aicsi-rl-v00.00-step-000100 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 29471025 num_examples: 2886 download_size: 13250948 dataset_size: 29471025 - config_name: aicsi-rl-v00.00-step-000150 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 2844731 num_examples: 222 download_size: 1407230 dataset_size: 2844731 - config_name: aicsi-rl-v00.00-step-000200 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 33305750 num_examples: 2886 download_size: 14971869 dataset_size: 33305750 - config_name: aicsi-rl-v00.00-step-000300 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 37049578 num_examples: 2886 download_size: 16593193 dataset_size: 37049578 - config_name: aicsi-rl-v00.01-step-000050 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 2349548 num_examples: 222 download_size: 1166102 dataset_size: 2349548 - config_name: aicsi-rl-v00.01-step-000100 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 24020770 num_examples: 2886 download_size: 10555728 dataset_size: 24020770 - config_name: aicsi-rl-v00.01-step-000150 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 1499143 num_examples: 222 download_size: 742690 dataset_size: 1499143 - config_name: aicsi-rl-v00.01-step-000200 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 21489349 num_examples: 2886 download_size: 9270841 dataset_size: 21489349 - config_name: aicsi-rl-v00.01-step-000300 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 22045822 num_examples: 2886 download_size: 9496599 dataset_size: 22045822 - config_name: aicsi-rl-v00.01-step-000400 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 22515755 num_examples: 2886 download_size: 9679467 dataset_size: 22515755 - config_name: azure-openai-gpt-5.4 features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 35877251 num_examples: 2886 download_size: 16946623 dataset_size: 35877251 - config_name: gcp-google-gemini-2.5-flash features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 2348427 num_examples: 222 download_size: 1169586 dataset_size: 2348427 - config_name: gcp-google-gemini-3-flash-preview features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 25206426 num_examples: 2886 download_size: 11843356 dataset_size: 25206426 - config_name: nvidia-openai-gpt-oss-120b features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 34703303 num_examples: 2886 download_size: 16988192 dataset_size: 34703303 - config_name: nvidia-openai-gpt-oss-20b features: - name: paper_id dtype: string - name: title dtype: string - name: condition dtype: string - name: ground_truth dtype: string - name: generated_output dtype: string - name: equivalence_label dtype: string - name: similarity_score dtype: string - name: novelty_score dtype: string - name: feasibility_score dtype: string - name: specificity_score dtype: string - name: significance_score dtype: string - name: justification dtype: string - name: strengths dtype: string - name: weaknesses dtype: string - name: raw_evaluation dtype: string - name: evaluated dtype: bool splits: - name: ICLR_2026_oral num_bytes: 27195166 num_examples: 2664 download_size: 12788937 dataset_size: 27195166 configs: - config_name: Qwen-Qwen3-4B-Instruct-2507 data_files: - split: ICLR_2026_oral path: Qwen-Qwen3-4B-Instruct-2507/ICLR_2026_oral-* - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-10 data_files: - split: ICLR_2026_oral path: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-10/ICLR_2026_oral-* - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-20 data_files: - split: ICLR_2026_oral path: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-20/ICLR_2026_oral-* - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-28 data_files: - split: ICLR_2026_oral path: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-28/ICLR_2026_oral-* - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-40 data_files: - split: ICLR_2026_oral path: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-40/ICLR_2026_oral-* - config_name: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-60 data_files: - split: ICLR_2026_oral path: Qwen3-4B-Instruct-SFT-v00.01-checkpoint-60/ICLR_2026_oral-* - config_name: aicsi-rl-v00.00-step-000050 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.00-step-000050/ICLR_2026_oral-* - config_name: aicsi-rl-v00.00-step-000100 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.00-step-000100/ICLR_2026_oral-* - config_name: aicsi-rl-v00.00-step-000150 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.00-step-000150/ICLR_2026_oral-* - config_name: aicsi-rl-v00.00-step-000200 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.00-step-000200/ICLR_2026_oral-* - config_name: aicsi-rl-v00.00-step-000300 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.00-step-000300/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000050 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000050/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000100 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000100/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000150 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000150/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000200 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000200/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000300 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000300/ICLR_2026_oral-* - config_name: aicsi-rl-v00.01-step-000400 data_files: - split: ICLR_2026_oral path: aicsi-rl-v00.01-step-000400/ICLR_2026_oral-* - config_name: azure-openai-gpt-5.4 data_files: - split: ICLR_2026_oral path: azure-openai-gpt-5.4/ICLR_2026_oral-* - config_name: gcp-google-gemini-2.5-flash data_files: - split: ICLR_2026_oral path: gcp-google-gemini-2.5-flash/ICLR_2026_oral-* - config_name: gcp-google-gemini-3-flash-preview data_files: - split: ICLR_2026_oral path: gcp-google-gemini-3-flash-preview/ICLR_2026_oral-* - config_name: nvidia-openai-gpt-oss-120b data_files: - split: ICLR_2026_oral path: nvidia-openai-gpt-oss-120b/ICLR_2026_oral-* - config_name: nvidia-openai-gpt-oss-20b data_files: - split: ICLR_2026_oral path: nvidia-openai-gpt-oss-20b/ICLR_2026_oral-* ---

提供机构：

ACSci

搜集汇总

数据集介绍

构建方式

该数据集名为evaluation_0405，构建过程旨在系统性地评估大语言模型在特定任务上的表现。数据采集自多个公开的模型回答与用户查询配对，经过人工与自动化相结合的筛选流程，剔除低质量与重复样本。随后，依据任务类型（如推理、对话、摘要等）对样本进行分类标注，并引入多维度评分标准，确保每个评估样本具备明确的参考答案与难度等级。最终，所有数据经过格式规范化处理，形成结构化的评估集。

使用方法

使用evaluation_0405数据集时，可直接将待评估模型的输出与数据集中提供的参考答案进行对比。建议采用自动评估指标（如BLEU、ROUGE、BERTScore）与人工评估相结合的方式，以捕捉语义层面的细微差异。数据以JSON格式存储，包含'query'、'reference'、'category'和'difficulty'字段，便于编程式加载。研究者可依据不同类别筛选子集进行专项测试，亦可使用全量数据完成模型综合能力排行榜的生成。

背景与挑战

背景概述

该数据集为evaluation_0405，创建于2025年4月5日，由某研究机构或团队为评估自然语言处理模型性能而构建。其核心研究问题聚焦于系统化检验模型在多样化任务上的表现，旨在推动对模型能力边界的认知。作为评估基准，该数据集通过精心设计的样本，为模型性能的比较提供了标准化度量，在模型迭代与优化领域具有重要影响力，助力研究者更精准地定位模型优势与不足。

当前挑战

数据集所解决的领域问题在于，现有评估基准往往面临任务单一或样本偏差的挑战，难以全面反映模型真实能力。evaluation_0405通过覆盖多元任务类型，缓解了评估维度狭窄的问题。构建过程中，挑战在于确保样本的代表性与平衡性，避免引入语言或文化偏见，同时需精细设计标签体系以匹配任务粒度，并严格把控数据质量以排除噪声干扰，从而提升评估结果的可靠性与泛化意义。

常用场景

经典使用场景

在自然语言处理与模型评估的交叉领域，evaluation_0405数据集以其精细化的评价指标体系脱颖而出。该数据集专为评测大语言模型在复杂指令遵循、多轮对话一致性及领域知识准确性方面的表现而设计，常被研究者用作基准测试的黄金标准。通过涵盖多样化的任务模板与结构化评分规则，它能够全面衡量模型在生成回答时的可控性与可靠性，尤其适用于对比不同规模、不同训练策略下模型的性能差异，已成为模型能力诊断中的关键一环。

解决学术问题

长期以来，学术界面临的瓶颈在于缺乏统一且细致的评测框架来量化模型在开放式生成任务中的真实能力。evaluation_0405数据集的问世填补了这一空白，它解决了传统评测方法中过于依赖单一指标、忽略语义多样性以及难以区分模型微小进步的问题。该数据集通过多维度打分机制与对抗性样本设计，使研究者能够精准定位模型在逻辑推理、知识边界把控及指令分解等层面的薄弱环节，极大地推动了模型鲁棒性与泛化能力的理论探索，为后续的模型改进提供了可复现的量化依据。

实际应用

在产业落地的广阔图景中，evaluation_0405数据集展现出非凡的实用价值。它被广泛应用于智能客服系统的自动化质检，帮助企业快速筛选出响应模版化、知识过时或态度敷衍的对话策略；同时，在虚拟助手的开发流程中，它充当了上线前的压力测试工具，确保模型在不同用户意图切换时仍能保持流畅与准确。此外，教育领域的AI辅导工具也借助该数据集纠正模型在知识点讲解中的误导性表述，显著提升了教学内容的权威性，降低了错误知识传播的风险。

数据集最近研究