D-EVAL__standard_eval_v3__hardcoded_search_function__low_lr_sft5epochs-eval_rl

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-EVAL__standard_eval_v3__hardcoded_search_function__low_lr_sft5epochs-eval_rl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是使用SkillFactory实验管理系统创建的hardcoded_search_function__low_lr_sft5epochs实验的一部分。数据集用于评估目的，包括诸如倒数、常识QA、gsm8k和长乘法等任务。数据集被分为测试集，具有不同的配置（最新、旧1、旧2）。每个配置都包括问题、答案、提示、模型响应和其他元数据等特征。数据集由贪婪的标注者进行了标注。

This dataset is part of the experiment named hardcoded_search_function__low_lr_sft5epochs, which was constructed using the SkillFactory experiment management system. It is utilized for evaluation purposes and encompasses tasks such as reciprocal computation, Common Sense QA, gsm8k, and long multiplication. The dataset is partitioned into test sets with different configurations: latest, old 1, and old 2. Each configuration includes features including questions, answers, prompts, model responses, and other metadata. The dataset was annotated by greedy annotators.

创建时间：

2025-08-10

原始信息汇总

数据集概述

基本信息

数据集名称: D-EVAL__standard_eval_v3__hardcoded_search_function__low_lr_sft5epochs-eval_rl
创建目的: 作为hardcoded_search_function__low_lr_sft5epochs实验的一部分，用于评估模型性能。
实验跟踪: Experiment Tracker Dataset

评估详情

模型: TAUR-dev/SIE-hardcoded_search_grpo_n_32-rl
任务:
- countdown_2arg
- countdown_3arg
- countdown_4arg
- countdown_5arg
- countdown_6arg
- commonsenseQA
- gsm8k
- longmult_2dig
- longmult_3dig
- longmult_4dig
- longmult_5dig
注释器: greedy
数据分割: test
数据集来源: TAUR-dev/D-DATA-canonical_dataset_splits-v1-7_13_25
阶段名称: eval_rl

数据集配置

latest

特征:
- question: string
- answer: string
- task_config: string
- task_source: string
- prompt: list (content: string, role: string)
- model_responses: null
- model_responses__eval_is_correct: null
- all_other_columns: string
- original_split: string
- answer_index: int64
- answer_key: string
- choices: struct (label: list of string, text: list of string)
- difficulty: string
- domain: string
- evaluation_type: string
- expected_answer_format: string
- id: string
- metadata: string
- original_answer: string
- prompt__few_shot: list (content: string, role: string)
- source: string
- task_type: string
- variant: string
- model_responses__best_of_n_atags: list of string
- model_responses__best_of_n_atags__finish_reason_length_flags: list of bool
- model_responses__best_of_n_atags__length_partial_responses: list of string
- prompt__best_of_n_atags__metadata: string
- model_responses__best_of_n_atags__metadata: string
- model_responses__greedy: list of string
- model_responses__greedy__finish_reason_length_flags: list of bool
- model_responses__greedy__length_partial_responses: list of string
- prompt__greedy__metadata: string
- model_responses__greedy__metadata: string
- model_responses__greedy__eval_is_correct: list of bool
- model_responses__greedy__eval_extracted_answers: list of string
- model_responses__greedy__eval_extraction_metadata: string
- model_responses__greedy__eval_evaluation_metadata: string
- model_responses__greedy__internal_answers__eval_is_correct: list of list of bool
- model_responses__greedy__internal_answers__eval_extracted_answers: list of list of string
- model_responses__greedy__internal_answers__eval_extraction_metadata: string
- model_responses__greedy__internal_answers__eval_evaluation_metadata: string
- model_responses__greedy__metrics: struct (flips_by: list of int64, flips_total: int64, num_correct: int64, pass_at_n: null, percent_correct: null, skill_count: struct (answer_revision: list of int64, best_of_n: list of int64, reflection_sbon: list of int64, voting: list of int64), total_responses: int64)
- model_responses__best_of_n_atags__eval_is_correct: list of bool
- model_responses__best_of_n_atags__eval_extracted_answers: null
- model_responses__best_of_n_atags__eval_extraction_metadata: string
- model_responses__best_of_n_atags__eval_evaluation_metadata: string
- model_responses__best_of_n_atags__internal_answers__eval_is_correct: null
- model_responses__best_of_n_atags__internal_answers__eval_extracted_answers: null
- model_responses__best_of_n_atags__internal_answers__eval_extraction_metadata: string
- model_responses__best_of_n_atags__internal_answers__eval_evaluation_metadata: string
- model_responses__best_of_n_atags__metrics: struct (flips_by: null, flips_total: null, num_correct: int64, pass_at_n: int64, percent_correct: float64, skill_count: struct (answer_revision: list of int64, best_of_n: list of int64, reflection_sbon: list of int64, voting: list of int64), total_responses: int64)
- eval_date: string
分割:
- test: 2450个样本，16,351,932字节
下载大小: 1,536,376字节
数据集大小: 16,351,932字节

older_1

特征: 与latest类似，但缺少部分模型响应相关特征。
分割:
- test: 2450个样本，11,911,615字节
下载大小: 1,262,167字节
数据集大小: 11,911,615字节

older_2

特征: 与latest类似，但缺少部分模型响应相关特征。
分割:
- test: 2450个样本，11,959,832字节
下载大小: 1,221,279字节
数据集大小: 11,959,832字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估数据集的构建质量直接影响模型性能的可靠性。该数据集采用多阶段实验设计，通过SkillFactory实验管理系统构建，包含2450个测试样本。数据来源于11种不同任务类型，包括数学推理和常识问答等，采用硬编码搜索函数和低学习率监督微调策略，确保数据生成的精准性和多样性。实验设计特别注重提示工程，通过变异提示生成答案标签来增强评估的鲁棒性。

特点

该数据集展现出显著的多维评估特性，其结构化特征设计涵盖问题、答案、任务配置等核心元素，并创新性地引入模型响应评估指标。数据样本标注精细，包含难度分级、领域分类和评估类型等元信息，支持细粒度的性能分析。特别值得注意的是，数据集采用贪婪解码和最佳N采样双轨评估机制，通过内部答案校验和指标统计模块，为模型行为分析提供立体化视角。不同配置版本的历史保留设计，为研究迭代过程提供可追溯的对比基准。

使用方法

该数据集适用于大语言模型的系统性评估，研究者可通过HuggingFace平台直接加载最新或历史版本配置。使用时应关注任务类型与评估目标的匹配度，建议优先采用包含完整评估指标的latest配置版本。典型工作流程包括加载测试分割数据、解析模型响应结构、分析评估指标三个步骤。对于数学推理类任务，可重点考察greedy__metrics中的正确率指标；对于复杂问答任务，则可结合internal_answers结构进行错误溯源分析。数据集与TAUR实验追踪系统深度集成，支持通过元数据关联原始实验参数。

背景与挑战

背景概述

D-EVAL__standard_eval_v3__hardcoded_search_function__low_lr_sft5epochs-eval_rl数据集是TAUR-dev团队在SkillFactory实验管理系统框架下构建的评估数据集，专为验证强化学习模型在复杂任务中的表现而设计。该数据集聚焦于多领域任务评估，包括数学运算（如多位乘法）、逻辑推理（如倒计时问题）和常识问答（如commonsenseQA）等多样化任务场景，旨在测试模型在结构化搜索函数约束下的泛化能力。其构建体现了当前人工智能研究中对模型鲁棒性和任务适应性的核心关切，为评估基于强化学习的语言模型提供了标准化基准。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决模型在跨领域任务中保持一致的推理能力，特别是处理数学运算与常识推理混合任务时易出现的逻辑断裂问题；在构建技术层面，需平衡prompt设计的标准化与任务特异性之间的矛盾，同时确保评估指标（如correctness判断）在不同任务类型间的可比性。数据集中hardcoded_search_function的引入虽提升了可解释性，但如何量化其对模型性能的影响仍存在方法学挑战。

常用场景

经典使用场景

在自然语言处理领域，D-EVAL数据集为模型评估提供了标准化的测试环境。该数据集通过多任务配置和丰富的评估指标，成为衡量模型在复杂推理、常识问答和数学计算等任务上性能的基准工具。研究人员利用其结构化的prompt-response机制，能够系统性地分析模型在不同难度层级和领域中的表现差异。

解决学术问题

该数据集有效解决了大语言模型评估中的关键挑战，包括多维度性能量化、任务泛化能力测试以及响应一致性分析。通过整合countdown系列任务与GSM8K等经典基准，为模型推理能力评估建立了统一框架。其细粒度的评估指标如correctness flags和extraction metadata，为理解模型错误模式提供了实证基础。

衍生相关工作

基于该数据集衍生的研究工作主要集中在三个方面：多任务学习的评估方法创新、推理链的可解释性分析以及自适应prompt优化技术。部分研究通过扩展其评估框架开发了动态难度调整算法，另有工作结合其metadata开发了错误模式诊断工具，推动了评估方法论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集