eppc-0shot

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/YanAdjeNole/eppc-0shot

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个在评估模型deepseek-ai/DeepSeek-R1-Distill-Qwen-32B期间自动创建的数据集。数据集由7个配置组成，每个配置对应一个评估任务。数据集是从80次运行中创建的，每次运行都可以在各个配置中作为一个特定的分割找到，分割的名称使用运行的timestamp命名。'train'分割始终指向最新的结果。还有一个额外的配置'results'存储所有运行的聚合结果。

创建时间：

2025-11-13

原始信息汇总

数据集概述

基本信息

数据集名称: Evaluation run of deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
来源: 在模型deepseek-ai/DeepSeek-R1-Distill-Qwen-32B评估运行期间自动创建
原始模型仓库: https://huggingface.co/datasets/YanAdjeNole/eppc-0shot

数据集结构

配置数量: 7个配置，每个对应一个评估任务
运行次数: 80次运行
数据组织:
- 每个运行在配置中作为特定分割
- 分割使用运行时间戳命名
- "train"分割始终指向最新结果
- 额外"results"配置存储所有运行的聚合结果

配置详情

模型配置列表

Qwen__QwQ-32B-AWQ__EppcExtraction
YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction
aaditya__Llama3-OpenBioLLM-70B__EppcExtraction
deepseek-ai__DeepSeek-R1-Distill-Llama-70B__EppcExtraction
deepseek-ai__DeepSeek-R1-Distill-Qwen-32B__EppcExtraction
google__gemma-2-27b-it__EppcExtraction
meta-llama__Llama-3.1-70B-Instruct__EppcExtraction
meta-llama__Llama-3.3-70B-Instruct__EppcExtraction

评估结果

数据访问

每个配置包含时间戳命名的分割和"latest"分割，指向最新结果文件。

搜集汇总

数据集介绍

构建方式

在人工智能模型评估领域，eppc-0shot数据集通过自动化流程构建而成。该数据集源自对deepseek-ai/DeepSeek-R1-Distill-Qwen-32B等系列模型的系统性评估运行，共整合了80次独立实验数据。每个评估任务对应特定配置，通过时间戳标记的分割点保存每次运行结果，最新数据始终映射至训练分割集。这种动态采集机制确保了评估结果的时效性与可追溯性，为模型性能分析提供了结构化数据基础。

特点

该数据集呈现出多维度评估架构的典型特征。其核心价值在于囊括了七个独立配置方案，覆盖不同模型在EppcExtraction任务中的表现数据。每个配置包含精确率、召回率和F1分数等关键指标，特别在代码、子代码及文本跨度三个层级提供细粒度评估。数据集通过时间序列分割保存历史运行记录，同时维护最新结果的实时更新，形成兼具历史纵深与即时性的评估矩阵。

使用方法

针对研究者的实际需求，数据集支持灵活的数据调用方式。用户可通过配置名称与时间戳分割点定向加载特定评估运行数据，例如调用deepseek-ai/DeepSeek-R1-Distill-Qwen-32B配置下的最新结果。数据集采用标准化JSON格式存储，可直接通过HuggingFace接口访问，其聚合结果配置更提供整体性能概览，便于横向比较不同模型在相同任务中的表现差异。

背景与挑战

背景概述

在自然语言处理领域，模型评估数据集作为衡量算法性能的关键工具，其构建与优化始终是学术研究的核心议题。eppc-0shot数据集由深度求索公司在2025年主导创建，专为评估DeepSeek-R1系列蒸馏模型在零样本场景下的表现而设计。该数据集通过80次独立实验运行，涵盖7种任务配置，聚焦于信息抽取任务的性能量化，其精确率、召回率与F1分数的多维评估体系，为大规模语言模型的迁移学习能力提供了重要基准。

当前挑战

该数据集面临的核心挑战在于零样本场景下模型泛化能力的精确评估，具体体现为信息抽取任务中代码级与子代码级语义单元的识别难题。构建过程中需克服多模型并行评估的技术复杂性，包括80次实验数据的时间戳对齐、任务配置间的指标一致性维护，以及动态更新机制中最新结果与历史数据的版本管理问题，这些因素共同构成了数据集质量控制的潜在瓶颈。

常用场景

经典使用场景

在自然语言处理领域，eppc-0shot数据集作为模型评估的基准工具，其核心应用聚焦于零样本场景下的信息抽取任务。该数据集通过系统化配置记录了多个大语言模型在EppcExtraction任务上的表现，为研究者提供了跨模型性能对比的标准化框架。在知识图谱构建与语义解析研究中，该数据集常被用于验证模型在未见领域中的泛化能力，其精确率、召回率与F1值的多维评估指标构成了模型能力评估的重要维度。

衍生相关工作

基于该数据集衍生的研究已形成系列重要成果。DeepSeek-R1系列模型的蒸馏优化、Llama架构的指令微调策略改进等研究均以该数据集的评估结果作为关键验证依据。在学术会议论文中，该数据集常被引用为大规模语言模型零样本能力评估的基准工具，其评估框架已被多个后续研究扩展应用于跨语言、多模态等新兴研究方向。

数据集最近研究