eppc-2shot
收藏Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/YanAdjeNole/eppc-2shot
下载链接
链接失效反馈官方服务:
资源简介:
在模型 Qwen/QwQ-32B-AWQ 的评估运行期间自动创建的数据集,包含2个配置,每个配置对应一个评估任务。数据集包括22次运行的结果,每次运行都作为每个配置中的一个特定分割,分割名称为运行的时戳。'train' 分割指向最新结果,还有一个额外的 'results' 配置存储所有运行聚合的结果。
This dataset was automatically created during the evaluation runs of the model Qwen/QwQ-32B-AWQ. It contains two configurations, each corresponding to one evaluation task. The dataset includes results from 22 runs, where each run acts as a specific split under each configuration, with the split name being the timestamp of the corresponding run. The 'train' split points to the latest results, and an additional 'results' configuration stores the aggregated results across all runs.
创建时间:
2025-11-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: Evaluation run of Qwen/QwQ-32B-AWQ
- 创建方式: 在评估模型Qwen/QwQ-32B-AWQ运行期间自动创建
- 模型仓库: https://huggingface.co/Qwen/QwQ-32B-AWQ
数据集结构
- 配置数量: 2个配置,每个对应一个评估任务
- 运行次数: 22次运行
- 数据组织: 每个运行在配置中作为特定分割,分割名称使用运行时间戳
- 最新结果: "train"分割始终指向最新结果
- 结果配置: 额外配置"results"存储所有聚合的运行结果
配置详情
配置1
- 配置名称: Qwen__QwQ-32B-AWQ__EppcExtraction
- 数据文件:
- 分割: 2025_11_14T09_42_25.181892
- 路径: **/samples_EppcExtraction_2025-11-14T09-42-25.181892.jsonl
- 分割: latest
- 路径: **/samples_EppcExtraction_2025-11-14T09-42-25.181892.jsonl
配置2
- 配置名称: YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction
- 数据文件:
- 分割: 2025_11_14T08_22_34.185980
- 路径: **/samples_EppcExtraction_2025-11-14T08-22-34.185980.jsonl
- 分割: latest
- 路径: **/samples_EppcExtraction_2025-11-14T08-22-34.185980.jsonl
配置3
- 配置名称: google__gemma-2-27b-it__EppcExtraction
- 数据文件:
- 分割: 2025_11_14T05_12_03.339860
- 路径: **/samples_EppcExtraction_2025-11-14T05-12-03.339860.jsonl
- 分割: latest
- 路径: **/samples_EppcExtraction_2025-11-14T05-12-03.339860.jsonl
最新评估结果
- 运行时间: 2025-11-14T09-42-25.181892
- 任务类型: EppcExtraction
- 评估指标:
- 代码级别:
- 精确率(P): 0.7517
- 召回率(R): 0.5476
- F1分数: 0.6336
- 子代码级别:
- 精确率(P): 0.5664
- 召回率(R): 0.4014
- F1分数: 0.4698
- 跨度级别:
- 精确率(P): 0.7766
- 召回率(R): 0.5759
- F1分数: 0.6614
- 代码级别:
- 标准误差: N/A
搜集汇总
数据集介绍

构建方式
在自然语言处理模型的评估流程中,eppc-2shot数据集通过自动化机制动态生成,专门用于测评大语言模型在特定任务上的表现。该数据集整合了多个评估运行的结果,每个运行对应一个独立的时间戳分割,最终形成包含22次实验记录的结构化集合。数据构建过程采用配置化管理,每个任务对应独立的配置单元,同时设有专门存储聚合评估结果的结果配置模块,确保数据溯源与版本管理的完整性。
特点
该数据集以EPPC提取任务为核心评估场景,其显著特点在于采用时间戳分割机制实现多版本实验数据的并行存储。数据集通过精确率、召回率和F1值等指标量化模型在代码、子代码及文本跨度三个维度的性能表现,例如最新评估中模型在代码维度的F1值达到0.6336。动态更新的特性使得数据集始终指向最新实验结果,同时保留历史评估记录以供对比分析。
使用方法
研究人员可通过加载特定时间戳分割或最新分割来获取具体评估数据,例如调用2025-11-14T09-42-25.181892时间戳即可获取该次运行的完整评估结果。数据集支持直接解析JSON格式的评估指标,包括精确率、召回率等关键性能数据。对于持续性的模型评估研究,用户可追踪不同时间节点的实验数据变化,或通过对比多组配置数据开展跨模型性能分析。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,模型性能评估成为研究的关键环节。eppc-2shot数据集作为Qwen/QwQ-32B-AWQ模型评估过程中自动生成的产物,聚焦于EPPC(事件-参与者-地点-时间)信息抽取任务的性能验证。该数据集通过22次独立实验构建,采用时间戳分割机制记录每次评估的完整轨迹,其核心价值在于为信息抽取领域提供可复现的模型对比基准。
当前挑战
在EPPC信息抽取任务中,模型需同时处理代码级、子代码级和跨度级的多粒度语义单元,当前评估结果显示召回率与精确度存在显著失衡。数据集构建过程中面临动态评估框架的稳定性挑战,包括多配置任务同步运行的技术复杂度,以及时间戳分割机制导致的数据版本管理困难。
常用场景
经典使用场景
在自然语言处理领域,eppc-2shot数据集作为模型评估的基准工具,主要用于测试大型语言模型在少样本学习场景下的信息抽取能力。该数据集通过结构化记录多个模型在EppcExtraction任务上的性能指标,为研究者提供了标准化的横向比较框架,特别是在代码、子代码和文本跨度三个维度的精确率、召回率和F1值评估中展现出独特价值。
实际应用
在实际应用层面,该数据集为工业界模型选型提供了关键参考依据。企业研发团队可通过对比不同模型在EppcExtraction任务上的表现数据,精准评估模型在真实业务场景中的信息抽取效能。这种数据驱动的评估方式尤其适用于智能客服、知识图谱构建等需要高效文本理解能力的应用系统开发。
衍生相关工作
基于该数据集衍生的经典研究主要集中在模型架构优化领域。多个研究团队通过分析数据集中的性能差异,提出了改进注意力机制与微调策略的创新方法。这些工作不仅推动了少样本学习理论的发展,还催生了包括动态提示构建和分层特征提取在内的多项技术突破,持续丰富着预训练语言模型的应用生态。
以上内容由遇见数据集搜集并总结生成



