eppc-1shot
收藏Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/YanAdjeNole/eppc-1shot
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是在模型 meta-llama/Llama-3.1-70B-Instruct 的评估过程中自动创建的。数据集由 4 个配置组成,每个配置对应一个评估任务。数据集由 44 次运行创建,每次运行在每个配置中都有一个特定的分割,分割的名称使用运行的日期和时间戳。'train' 分割始终指向最新的结果。还有一个额外的配置 'results' 存储所有运行的综合结果。文件还提供了一个如何从一个运行加载数据详情的示例,并包含一个 Python 片段来演示结果数据结构。
创建时间:
2025-11-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: Evaluation run of meta-llama/Llama-3.1-70B-Instruct
- 创建方式: 在模型 meta-llama/Llama-3.1-70B-Instruct 评估运行期间自动创建
- 配置数量: 4个配置,每个对应一个评估任务
- 运行次数: 44次运行,每次运行作为特定分割存储在配置中
数据集结构
配置详情
-
Qwen__QwQ-32B-AWQ__EppcExtraction
- 分割: 2025_11_14T10_11_50.184437, latest
- 数据文件:
**/samples_EppcExtraction_2025-11-14T10-11-50.184437.jsonl
-
YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction
- 分割: 2025_11_14T07_24_04.384708, latest
- 数据文件:
**/samples_EppcExtraction_2025-11-14T07-24-04.384708.jsonl
-
deepseek-ai__DeepSeek-R1-Distill-Llama-70B__EppcExtraction
- 分割: 2025_11_14T06_52_40.736462, latest
- 数据文件:
**/samples_EppcExtraction_2025-11-14T06-52-40.736462.jsonl
-
google__gemma-2-27b-it__EppcExtraction
- 分割: 2025_11_14T04_14_45.568762, latest
- 数据文件:
**/samples_EppcExtraction_2025-11-14T04-14-45.568762.jsonl
-
meta-llama__Llama-3.1-70B-Instruct__EppcExtraction
- 分割: 2025_11_14T10_16_39.871074, latest
- 数据文件:
**/samples_EppcExtraction_2025-11-14T10-16-39.871074.jsonl
评估结果
最新运行结果 (2025-11-14T10-16-39.871074)
-
代码级别性能:
- 精确率 (P): 0.6572
- 召回率 (R): 0.6408
- F1分数: 0.6489
-
子代码级别性能:
- 精确率 (P): 0.4413
- 召回率 (R): 0.4427
- F1分数: 0.442
-
跨度级别性能:
- 精确率 (P): 0.8262
- 召回率 (R): 0.8152
- F1分数: 0.8207
数据访问
- 每个配置包含特定时间戳的分割和指向最新结果的"train"分割
- 额外"results"配置存储所有运行的聚合结果
- 最新结果文件: https://huggingface.co/datasets/YanAdjeNole/eppc-1shot/blob/main/meta-llama/Llama-3.1-70B-Instruct/results_2025-11-14T10-16-39.871074.json
搜集汇总
数据集介绍

构建方式
在自然语言处理模型评估领域,eppc-1shot数据集的构建体现了自动化评估流程的先进性。该数据集通过44次独立运行实验生成,每次运行对应特定时间戳划分的数据切片,最终形成包含4种任务配置的结构化集合。其核心构建逻辑在于将不同大语言模型在EPPC提取任务上的表现转化为标准化评估数据,每个配置通过时间戳命名的分割文件记录具体评估样本,而最新结果始终通过train分割实时更新。
特点
该数据集最显著的特征在于其动态更新的架构设计,通过时间戳分割机制完整保留了历次评估的历史轨迹。数据集包含代码、子代码和跨度三个维度的精确评估指标,以F1分数、精确率和召回率构成完整的性能评估体系。其多模型对比特性尤为突出,囊括了Llama、Gemma、DeepSeek等主流大语言模型在相同任务下的表现数据,为横向比较研究提供了坚实基础。
使用方法
研究人员可通过加载特定时间戳分割文件获取历史评估细节,或直接调用latest分割访问最新结果。数据集支持按配置名称定向查询不同模型的性能数据,例如通过meta-llama配置获取对应模型的EPPC提取能力指标。使用过程中需注意不同任务配置可能存在的评估范围差异,建议结合结果配置中的聚合数据综合分析模型表现。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,评估模型性能成为推动技术发展的关键环节。eppc-1shot数据集作为自动化评估框架的产物,由多个研究团队在2025年协同构建,专注于EppcExtraction任务的性能评测。该数据集通过44次实验运行生成四个配置模块,采用时间戳分割机制记录不同模型的动态表现,为大语言模型的细粒度能力评估提供了标准化基准。其核心研究价值在于通过结构化数据存储和实时更新机制,为模型迭代优化提供了可量化的科学依据。
当前挑战
在信息抽取领域,EppcExtraction任务面临实体边界模糊和嵌套结构识别的固有难题,现有模型在子代码层级仅达到0.442的F1值,显示深层语义理解仍存瓶颈。数据集构建过程中需协调多机构模型输出格式,处理时间序列衍生的版本控制复杂性,同时确保评估指标在代码、子代码和跨度三个维度的可比性。动态更新机制虽提升时效性,但增加了数据一致性的维护难度,需通过严格的时间戳映射来保障实验可复现性。
常用场景
经典使用场景
在自然语言处理领域,eppc-1shot数据集作为大语言模型评估的基准工具,其核心应用聚焦于少样本场景下的信息抽取任务。该数据集通过构建标准化的评估框架,系统性地测试模型在有限样本条件下对复杂语义结构的理解能力,特别是在代码与子代码层面的结构化信息提取方面展现出独特价值。其评估结果直接反映了模型在数据稀缺环境下的泛化性能,为比较不同架构的语言模型提供了可靠依据。
衍生相关工作
围绕该数据集产生的评估范式已催生系列重要研究。包括基于Llama-3.1-70B架构的模型优化工作,以及针对代码语义理解的专用模型开发。这些研究通过分析模型在EppcExtraction任务中的表现差异,推动了提示工程、微调策略等方面的技术创新。同时,该数据集建立的评估标准也被后续研究广泛采纳,形成了代码理解领域模型能力评估的基准体系。
数据集最近研究
最新研究方向
在自然语言处理领域,eppc-1shot数据集聚焦于少样本场景下的实体与短语抽取任务评估。当前研究前沿集中于探索大语言模型在EPPC(实体、短语及代码)抽取任务中的泛化能力,特别是通过元学习框架提升模型在稀疏标注数据下的表现。最新评估数据显示,Llama-3.1-70B等模型在跨度抽取任务中达到82.07%的F1值,但在细粒度子代码分类任务中仍存在显著提升空间。该数据集通过多模型对比实验,为少样本学习与领域自适应研究提供了重要基准,推动了信息抽取技术在医疗文本、法律文档等专业领域的应用突破。
以上内容由遇见数据集搜集并总结生成



