five

eppc-1shot

收藏
Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/YanAdjeNole/eppc-1shot
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 meta-llama/Llama-3.1-70B-Instruct 的评估过程中自动创建的。数据集由 4 个配置组成,每个配置对应一个评估任务。数据集由 44 次运行创建,每次运行在每个配置中都有一个特定的分割,分割的名称使用运行的日期和时间戳。'train' 分割始终指向最新的结果。还有一个额外的配置 'results' 存储所有运行的综合结果。文件还提供了一个如何从一个运行加载数据详情的示例,并包含一个 Python 片段来演示结果数据结构。
创建时间:
2025-11-13
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Evaluation run of meta-llama/Llama-3.1-70B-Instruct
  • 创建方式: 在模型 meta-llama/Llama-3.1-70B-Instruct 评估运行期间自动创建
  • 配置数量: 4个配置,每个对应一个评估任务
  • 运行次数: 44次运行,每次运行作为特定分割存储在配置中

数据集结构

配置详情

  • Qwen__QwQ-32B-AWQ__EppcExtraction

    • 分割: 2025_11_14T10_11_50.184437, latest
    • 数据文件: **/samples_EppcExtraction_2025-11-14T10-11-50.184437.jsonl
  • YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction

    • 分割: 2025_11_14T07_24_04.384708, latest
    • 数据文件: **/samples_EppcExtraction_2025-11-14T07-24-04.384708.jsonl
  • deepseek-ai__DeepSeek-R1-Distill-Llama-70B__EppcExtraction

    • 分割: 2025_11_14T06_52_40.736462, latest
    • 数据文件: **/samples_EppcExtraction_2025-11-14T06-52-40.736462.jsonl
  • google__gemma-2-27b-it__EppcExtraction

    • 分割: 2025_11_14T04_14_45.568762, latest
    • 数据文件: **/samples_EppcExtraction_2025-11-14T04-14-45.568762.jsonl
  • meta-llama__Llama-3.1-70B-Instruct__EppcExtraction

    • 分割: 2025_11_14T10_16_39.871074, latest
    • 数据文件: **/samples_EppcExtraction_2025-11-14T10-16-39.871074.jsonl

评估结果

最新运行结果 (2025-11-14T10-16-39.871074)

  • 代码级别性能:

    • 精确率 (P): 0.6572
    • 召回率 (R): 0.6408
    • F1分数: 0.6489
  • 子代码级别性能:

    • 精确率 (P): 0.4413
    • 召回率 (R): 0.4427
    • F1分数: 0.442
  • 跨度级别性能:

    • 精确率 (P): 0.8262
    • 召回率 (R): 0.8152
    • F1分数: 0.8207

数据访问

  • 每个配置包含特定时间戳的分割和指向最新结果的"train"分割
  • 额外"results"配置存储所有运行的聚合结果
  • 最新结果文件: https://huggingface.co/datasets/YanAdjeNole/eppc-1shot/blob/main/meta-llama/Llama-3.1-70B-Instruct/results_2025-11-14T10-16-39.871074.json
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理模型评估领域,eppc-1shot数据集的构建体现了自动化评估流程的先进性。该数据集通过44次独立运行实验生成,每次运行对应特定时间戳划分的数据切片,最终形成包含4种任务配置的结构化集合。其核心构建逻辑在于将不同大语言模型在EPPC提取任务上的表现转化为标准化评估数据,每个配置通过时间戳命名的分割文件记录具体评估样本,而最新结果始终通过train分割实时更新。
特点
该数据集最显著的特征在于其动态更新的架构设计,通过时间戳分割机制完整保留了历次评估的历史轨迹。数据集包含代码、子代码和跨度三个维度的精确评估指标,以F1分数、精确率和召回率构成完整的性能评估体系。其多模型对比特性尤为突出,囊括了Llama、Gemma、DeepSeek等主流大语言模型在相同任务下的表现数据,为横向比较研究提供了坚实基础。
使用方法
研究人员可通过加载特定时间戳分割文件获取历史评估细节,或直接调用latest分割访问最新结果。数据集支持按配置名称定向查询不同模型的性能数据,例如通过meta-llama配置获取对应模型的EPPC提取能力指标。使用过程中需注意不同任务配置可能存在的评估范围差异,建议结合结果配置中的聚合数据综合分析模型表现。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,评估模型性能成为推动技术发展的关键环节。eppc-1shot数据集作为自动化评估框架的产物,由多个研究团队在2025年协同构建,专注于EppcExtraction任务的性能评测。该数据集通过44次实验运行生成四个配置模块,采用时间戳分割机制记录不同模型的动态表现,为大语言模型的细粒度能力评估提供了标准化基准。其核心研究价值在于通过结构化数据存储和实时更新机制,为模型迭代优化提供了可量化的科学依据。
当前挑战
在信息抽取领域,EppcExtraction任务面临实体边界模糊和嵌套结构识别的固有难题,现有模型在子代码层级仅达到0.442的F1值,显示深层语义理解仍存瓶颈。数据集构建过程中需协调多机构模型输出格式,处理时间序列衍生的版本控制复杂性,同时确保评估指标在代码、子代码和跨度三个维度的可比性。动态更新机制虽提升时效性,但增加了数据一致性的维护难度,需通过严格的时间戳映射来保障实验可复现性。
常用场景
经典使用场景
在自然语言处理领域,eppc-1shot数据集作为大语言模型评估的基准工具,其核心应用聚焦于少样本场景下的信息抽取任务。该数据集通过构建标准化的评估框架,系统性地测试模型在有限样本条件下对复杂语义结构的理解能力,特别是在代码与子代码层面的结构化信息提取方面展现出独特价值。其评估结果直接反映了模型在数据稀缺环境下的泛化性能,为比较不同架构的语言模型提供了可靠依据。
衍生相关工作
围绕该数据集产生的评估范式已催生系列重要研究。包括基于Llama-3.1-70B架构的模型优化工作,以及针对代码语义理解的专用模型开发。这些研究通过分析模型在EppcExtraction任务中的表现差异,推动了提示工程、微调策略等方面的技术创新。同时,该数据集建立的评估标准也被后续研究广泛采纳,形成了代码理解领域模型能力评估的基准体系。
数据集最近研究
最新研究方向
在自然语言处理领域,eppc-1shot数据集聚焦于少样本场景下的实体与短语抽取任务评估。当前研究前沿集中于探索大语言模型在EPPC(实体、短语及代码)抽取任务中的泛化能力,特别是通过元学习框架提升模型在稀疏标注数据下的表现。最新评估数据显示,Llama-3.1-70B等模型在跨度抽取任务中达到82.07%的F1值,但在细粒度子代码分类任务中仍存在显著提升空间。该数据集通过多模型对比实验,为少样本学习与领域自适应研究提供了重要基准,推动了信息抽取技术在医疗文本、法律文档等专业领域的应用突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作