D-EVAL__standard_eval_v3__jack_test_workflow-eval

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-EVAL__standard_eval_v3__jack_test_workflow-eval

下载链接

链接失效反馈

官方服务：

资源简介：

D-EVAL__standard_eval_v3__jack_test_workflow-eval是一个评估数据集，作为jack_test_workflow实验的一部分创建，使用了SkillFactory实验管理系统。数据集包含latest、older_1、older_2、older_3、older_4五种配置版本，每个版本都有问题、答案、任务配置、任务来源、提示、模型响应等特征，并且每个配置的测试集包含250个示例。数据集用于评估模型在特定任务上的表现。

创建时间：

2025-08-08

原始信息汇总

数据集概述

基本信息

数据集名称: D-EVAL__standard_eval_v3__jack_test_workflow-eval
创建目的: 作为jack_test_workflow实验的一部分，使用SkillFactory实验管理系统创建。
实验详情: Experiment Tracker Dataset

配置信息

latest

特征:
- question: string
- answer: string
- task_config: string
- task_source: string
- prompt: list(content: string, role: string)
- model_responses: sequence
- model_responses__eval_is_correct: sequence
- all_other_columns: string
- original_split: string
- metadata: string
- model_responses__greedy: sequence
- model_responses__greedy__finish_reason_length_flags: sequence(bool)
- model_responses__greedy__length_partial_responses: sequence(string)
- prompt__greedy__metadata: string
- model_responses__greedy__metadata: string
- model_responses__greedy__eval_is_correct: sequence(bool)
- model_responses__greedy__eval_extracted_answers: sequence(string)
- model_responses__greedy__eval_extraction_metadata: string
- model_responses__greedy__eval_evaluation_metadata: string
- model_responses__greedy__internal_answers__eval_is_correct: sequence(sequence(bool))
- model_responses__greedy__internal_answers__eval_extracted_answers: sequence(sequence(string))
- model_responses__greedy__internal_answers__eval_extraction_metadata: string
- model_responses__greedy__internal_answers__eval_evaluation_metadata: string
- model_responses__greedy__metrics: struct(flips_by: sequence(int64), flips_total: int64, num_correct: int64, pass_at_n: null, percent_correct: null, skill_count: struct(answer_revision: sequence(int64), best_of_n: sequence(int64), reflection_sbon: sequence(int64), voting: sequence(int64)), total_responses: int64)
- eval_date: string
数据分割:
- test: 250个样本，1350162字节
下载大小: 233145字节
数据集大小: 1350162字节

older_1

特征: 同latest，但缺少部分metrics相关特征
数据分割:
- test: 250个样本，1297924字节
下载大小: 219719字节
数据集大小: 1297924字节

older_2

特征: 同older_1
数据分割:
- test: 250个样本，1313141字节
下载大小: 225733字节
数据集大小: 1313141字节

older_3

特征: 同older_1
数据分割:
- test: 250个样本，1306408字节
下载大小: 217032字节
数据集大小: 1306408字节

older_4

特征: 同older_1
数据分割:
- test: 250个样本，1280264字节
下载大小: 210652字节
数据集大小: 1280264字节

评估详情

模型: TAUR-dev/M-jack_test_workflow-rl
任务: ["countdown_2arg"]
标注器: ["greedy"]
数据分割: ["test"]
数据集来源: TAUR-dev/D-DATA-canonical_dataset_splits-v1-7_13_25
阶段名称: eval
上传至独立仓库: true
为答案标签修改提示: true

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，D-EVAL数据集采用多版本配置架构构建，包含latest、older_1至older_4五个独立配置版本。每个版本均包含250个测试样本，通过SkillFactory实验管理系统进行标准化流程生成。数据集以问题-答案对为核心单元，整合任务配置元数据和提示词结构，采用贪婪解码策略生成模型响应，并系统记录评估日期和元数据信息，确保评估过程的可追溯性和可复现性。

特点

该数据集最显著的特征在于其多层次评估体系，不仅包含基础的问题-答案对，还深度集成了模型响应评估指标系统。特征维度涵盖答案正确性判断、答案提取元数据、内部答案评估序列以及多维度技能计数统计。数据集采用结构化嵌套设计，包含序列化模型响应、评估标记和复杂度量指标，特别是引入了翻转计数、正确率统计和技能分类评估体系，为模型性能分析提供立体化观测视角。

使用方法

研究人员可通过加载特定配置版本（latest或历史版本）访问测试分割数据，利用内置的评估标记字段进行模型性能验证。使用时应关注model_responses__greedy__eval_is_correct序列字段获取正确性判断，参考model_responses__greedy__metrics结构体进行多维度指标分析。数据集支持跨版本对比研究，通过eval_date字段可实现时序性能演化分析，而内部答案评估序列则为细粒度错误分析提供技术支持。

背景与挑战

背景概述

D-EVAL__standard_eval_v3__jack_test_workflow-eval数据集作为人工智能评估领域的重要基准，由TAUR-dev研究团队基于SkillFactory实验管理系统构建。该数据集专注于语言模型的多维度性能评估，通过精心设计的countdown_2arg等任务类型，系统化地检验模型在复杂推理任务中的表现。其创新性地整合了贪婪解码策略的响应评估体系，为语言模型的迭代优化提供了关键数据支撑，显著推动了可解释人工智能评估方法论的发展。

当前挑战

该数据集核心挑战在于解决语言模型在时序推理任务中的评估标准化难题，特别是模型在多步推理过程中产生的中间状态验证问题。构建过程中面临标注一致性与评估维度全面性的双重挑战：需要确保不同评估者对模型响应判定的高度一致性，同时设计能够捕捉模型内部推理链路的评估指标。数据采集还需克服提示工程与答案提取的协同优化，以及大规模评估元数据的结构化存储与检索等技术瓶颈。

常用场景

解决学术问题

该数据集有效解决了生成式人工智能领域模型评估标准化缺失的核心问题，通过结构化的问题-答案对和多重评估指标，为学术研究提供了可复现的评估范式。其意义在于建立了模型响应正确性判定的客观标准，显著提升了不同模型间性能对比的科学性，推动了自动评估方法在自然语言处理领域的发展。

衍生相关工作

基于该数据集评估框架，衍生出了多个重要的研究方向，包括模型响应稳定性分析、多步推理能力评估体系构建以及自适应评估策略开发。这些工作不仅扩展了原始数据集的应用边界，还催生了新一代评估标准的发展，为构建更稳健的人工智能系统提供了理论基础和方法支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集