eppc-1shot

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/YanAdjeNole/eppc-1shot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 meta-llama/Llama-3.1-70B-Instruct 的评估过程中自动创建的。数据集由 4 个配置组成，每个配置对应一个评估任务。数据集由 44 次运行创建，每次运行在每个配置中都有一个特定的分割，分割的名称使用运行的日期和时间戳。'train' 分割始终指向最新的结果。还有一个额外的配置 'results' 存储所有运行的综合结果。文件还提供了一个如何从一个运行加载数据详情的示例，并包含一个 Python 片段来演示结果数据结构。

创建时间：

2025-11-13

原始信息汇总

数据集概述

基本信息

数据集名称: Evaluation run of meta-llama/Llama-3.1-70B-Instruct
创建方式: 在模型 meta-llama/Llama-3.1-70B-Instruct 评估运行期间自动创建
配置数量: 4个配置，每个对应一个评估任务
运行次数: 44次运行，每次运行作为特定分割存储在配置中

数据集结构

配置详情

Qwen__QwQ-32B-AWQ__EppcExtraction
- 分割: 2025_11_14T10_11_50.184437, latest
- 数据文件: **/samples_EppcExtraction_2025-11-14T10-11-50.184437.jsonl
YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction
- 分割: 2025_11_14T07_24_04.384708, latest
- 数据文件: **/samples_EppcExtraction_2025-11-14T07-24-04.384708.jsonl
deepseek-ai__DeepSeek-R1-Distill-Llama-70B__EppcExtraction
- 分割: 2025_11_14T06_52_40.736462, latest
- 数据文件: **/samples_EppcExtraction_2025-11-14T06-52-40.736462.jsonl
google__gemma-2-27b-it__EppcExtraction
- 分割: 2025_11_14T04_14_45.568762, latest
- 数据文件: **/samples_EppcExtraction_2025-11-14T04-14-45.568762.jsonl
meta-llama__Llama-3.1-70B-Instruct__EppcExtraction
- 分割: 2025_11_14T10_16_39.871074, latest
- 数据文件: **/samples_EppcExtraction_2025-11-14T10-16-39.871074.jsonl

评估结果

数据访问

每个配置包含特定时间戳的分割和指向最新结果的"train"分割
额外"results"配置存储所有运行的聚合结果
最新结果文件: https://huggingface.co/datasets/YanAdjeNole/eppc-1shot/blob/main/meta-llama/Llama-3.1-70B-Instruct/results_2025-11-14T10-16-39.871074.json

搜集汇总

数据集介绍

构建方式

在自然语言处理模型评估领域，eppc-1shot数据集的构建体现了自动化评估流程的先进性。该数据集通过44次独立运行实验生成，每次运行对应特定时间戳划分的数据切片，最终形成包含4种任务配置的结构化集合。其核心构建逻辑在于将不同大语言模型在EPPC提取任务上的表现转化为标准化评估数据，每个配置通过时间戳命名的分割文件记录具体评估样本，而最新结果始终通过train分割实时更新。

特点

该数据集最显著的特征在于其动态更新的架构设计，通过时间戳分割机制完整保留了历次评估的历史轨迹。数据集包含代码、子代码和跨度三个维度的精确评估指标，以F1分数、精确率和召回率构成完整的性能评估体系。其多模型对比特性尤为突出，囊括了Llama、Gemma、DeepSeek等主流大语言模型在相同任务下的表现数据，为横向比较研究提供了坚实基础。

使用方法

研究人员可通过加载特定时间戳分割文件获取历史评估细节，或直接调用latest分割访问最新结果。数据集支持按配置名称定向查询不同模型的性能数据，例如通过meta-llama配置获取对应模型的EPPC提取能力指标。使用过程中需注意不同任务配置可能存在的评估范围差异，建议结合结果配置中的聚合数据综合分析模型表现。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，评估模型性能成为推动技术发展的关键环节。eppc-1shot数据集作为自动化评估框架的产物，由多个研究团队在2025年协同构建，专注于EppcExtraction任务的性能评测。该数据集通过44次实验运行生成四个配置模块，采用时间戳分割机制记录不同模型的动态表现，为大语言模型的细粒度能力评估提供了标准化基准。其核心研究价值在于通过结构化数据存储和实时更新机制，为模型迭代优化提供了可量化的科学依据。

当前挑战

在信息抽取领域，EppcExtraction任务面临实体边界模糊和嵌套结构识别的固有难题，现有模型在子代码层级仅达到0.442的F1值，显示深层语义理解仍存瓶颈。数据集构建过程中需协调多机构模型输出格式，处理时间序列衍生的版本控制复杂性，同时确保评估指标在代码、子代码和跨度三个维度的可比性。动态更新机制虽提升时效性，但增加了数据一致性的维护难度，需通过严格的时间戳映射来保障实验可复现性。

常用场景

经典使用场景

在自然语言处理领域，eppc-1shot数据集作为大语言模型评估的基准工具，其核心应用聚焦于少样本场景下的信息抽取任务。该数据集通过构建标准化的评估框架，系统性地测试模型在有限样本条件下对复杂语义结构的理解能力，特别是在代码与子代码层面的结构化信息提取方面展现出独特价值。其评估结果直接反映了模型在数据稀缺环境下的泛化性能，为比较不同架构的语言模型提供了可靠依据。

衍生相关工作

围绕该数据集产生的评估范式已催生系列重要研究。包括基于Llama-3.1-70B架构的模型优化工作，以及针对代码语义理解的专用模型开发。这些研究通过分析模型在EppcExtraction任务中的表现差异，推动了提示工程、微调策略等方面的技术创新。同时，该数据集建立的评估标准也被后续研究广泛采纳，形成了代码理解领域模型能力评估的基准体系。

数据集最近研究