five

D-ExpTracker__qwen25_15b_instruct_bestofn_llmjudge_countdown_4arg__v1

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/TAUR-dev/D-ExpTracker__qwen25_15b_instruct_bestofn_llmjudge_countdown_4arg__v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个评估数据集,用于评估模型对问题的回答。它包含了问题、答案、任务配置、提示信息、模型响应及其评估结果等特征。数据集还包含了元数据和评估日期等信息,用于记录和跟踪评估过程。
创建时间:
2025-08-28
原始信息汇总

数据集概述

基本信息

  • 数据集名称: D-ExpTracker__qwen25_15b_instruct_bestofn_llmjudge_countdown_4arg__v1
  • 实验描述: Simple test experiment for Skill Factory workflows
  • 开始时间: 2025-08-28T10:38:32.927969
  • 总阶段数: 1

数据集配置

evals_eval_0 配置

  • 数据分割: test
  • 样本数量: 12,000
  • 数据大小: 371,579,268 字节
  • 下载大小: 126,455,538 字节

特征结构

  • question: 字符串类型
  • answer: 字符串类型
  • task_config: 字符串类型
  • task_source: 字符串类型
  • prompt: 列表结构,包含content和role字段
  • model_responses: 序列类型
  • model_responses__eval_is_correct: 序列类型
  • all_other_columns: 字符串类型
  • original_split: 字符串类型
  • metadata: 字符串类型
  • model_responses__best_of_n: 字符串序列
  • model_responses__best_of_n__finish_reason_length_flags: 布尔序列
  • model_responses__best_of_n__length_partial_responses: 字符串序列
  • prompt__best_of_n__metadata: 结构体,包含api_url、backend、chat_template_applied、generation_params、model_name、prompt等字段
  • model_responses__best_of_n__metadata: 结构体,包含backend、model_name、n_responses字段
  • model_responses__best_of_n__eval_is_correct: 布尔序列
  • model_responses__best_of_n__eval_extracted_answers: 字符串序列
  • model_responses__best_of_n__eval_extraction_metadata: 列表结构,包含all_spans_summary、empty_response、error、extraction_method、final_span_info等字段
  • model_responses__best_of_n__eval_evaluation_metadata: 列表结构,包含answer_block、error、final_answer、is_correct、method、reason等字段
  • model_responses__best_of_n__internal_answers__eval_is_correct: 布尔序列的序列
  • model_responses__best_of_n__internal_answers__eval_extracted_answers: 字符串序列的序列
  • model_responses__best_of_n__internal_answers__eval_extraction_metadata: 列表结构,包含empty_response、error、extraction_method、internal_spans_detailed等字段
  • model_responses__best_of_n__internal_answers__eval_evaluation_metadata: 列表的列表结构,包含answer_block、error、final_answer、is_correct字段
  • model_responses__best_of_n__metrics: 结构体,包含flips_by、flips_total、num_correct、pass_at_n、percent_correct、skill_count、total_responses字段
  • eval_date: 字符串类型
  • split: 字符串类型
  • revision_name: 字符串类型
  • model_path: 字符串类型
  • checkpoint_step: 整型
  • stage_name: 字符串类型
  • stage_number: 整型
  • timestamp: 字符串类型
  • eval_repo_id: 字符串类型

logs__evaluation_eval_0 配置

  • 数据分割: train
  • 样本数量: 6
  • 数据大小: 2,777,778,748 字节
  • 下载大小: 184,763,169 字节

特征结构

  • timestamp: 字符串类型
  • end_timestamp: 字符串类型
  • stage_name: 字符串类型
  • stage_number: 整型
  • level: 字符串类型
  • message: 字符串类型
  • stdout_content: 字符串类型
  • stderr_content: 字符串类型
  • experiment_name: 字符串类型
  • elapsed_time_seconds: 浮点型
  • stage_complete: 布尔型

metadata 配置

  • 数据分割: train
  • 样本数量: 26
  • 数据大小: 34,680 字节
  • 下载大小: 9,733 字节

特征结构

  • experiment_name: 字符串类型
  • start_time: 字符串类型
  • description: 字符串类型
  • base_org: 字符串类型
  • stage_number: 字符串类型
  • stage_type: 字符串类型
  • status: 字符串类型

数据文件路径

  • evals_eval_0: evals_eval_0/test-*
  • logs__evaluation_eval_0: logs__evaluation_eval_0/train-*
  • metadata: metadata/train-*

使用方式

可通过datasets库加载特定配置: python from datasets import load_dataset metadata = load_dataset(TAUR-dev/D-ExpTracker__qwen25_15b_instruct_bestofn_llmjudge_countdown_4arg__v1, experiment_metadata)

搜集汇总
数据集介绍
main_image_url
构建方式
在语言模型评估领域,D-ExpTracker数据集通过系统化实验流程构建而成。该数据集采用多阶段实验设计,基于Qwen2.5-15B-Instruct模型进行最佳N选择评估,通过LLM法官机制对倒计时推理任务进行系统验证。构建过程中整合了问题-答案对、任务配置参数及模型响应元数据,采用结构化数据采集方法确保评估过程的完整性和可追溯性。
特点
该数据集最显著的特征在于其全面的评估维度设计,包含12000个测试样本的深度标注数据。每个样本不仅记录模型原始响应,还包含最佳N选择评估结果、答案提取元数据和准确性标注。数据集采用多层嵌套结构存储信息,涵盖生成参数配置、响应评估指标和内部答案验证数据,为研究社区提供细粒度的模型行为分析基础。
使用方法
研究人员可通过HuggingFace数据集库直接加载不同配置组件进行针对性分析。使用load_dataset函数可分别访问实验元数据、评估结果和日志信息,支持对模型响应准确性、答案提取效果和评估一致性等多维度指标的深入探究。数据集支持结构化查询,便于开展模型比较研究、评估方法验证和语言模型行为分析等科研工作。
背景与挑战
背景概述
在人工智能研究领域,实验追踪数据集作为记录模型训练与评估过程的重要载体,由TAUR-dev团队于2025年创建。该数据集专注于大语言模型的系统性评估,特别是针对Qwen2.5-15B-Instruct模型在Best-of-N采样策略下的性能表现。通过结构化存储实验配置、生成响应及评估元数据,为研究社区提供了可复现的基准测试框架,显著推进了语言模型优化方法的研究进程。
当前挑战
该数据集致力于解决大语言模型在复杂推理任务中的稳定性评估难题,特别是Best-of-N策略下模型响应一致性与正确性的量化问题。构建过程中面临多维度挑战:需设计精细的评估管道以捕获模型生成轨迹,处理海量生成响应与评估元数据的结构化存储,以及确保不同评估阶段数据的完整性与可追溯性。同时,需要开发高效的答案提取与评判机制,以应对模型输出中存在的格式不一致与语义模糊问题。
常用场景
解决学术问题
该数据集有效解决了大语言模型评估中缺乏标准化基准的学术难题,通过结构化存储模型响应、评估指标和元数据,为对比研究提供可靠依据。其创新性地整合了答案提取、正确性判断和多维度评估元数据,使得研究者能够深入分析模型错误模式和改进方向。这种系统化的评估方法显著推进了对话系统评估范式的标准化进程,为领域内可复现研究奠定基础。
衍生相关工作
基于该数据集的评估框架,衍生出多项重要的相关研究,包括动态评估策略优化、多模型集成方法改进以及自动化评判系统的精度提升。这些工作进一步拓展了数据集的应用边界,形成了完整的模型评估生态系统。后续研究通过引入更精细的评估维度和跨模型对比分析,持续推动着对话系统评估方法论的发展与完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作