eppc-0shot
收藏Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/YanAdjeNole/eppc-0shot
下载链接
链接失效反馈官方服务:
资源简介:
这是一个在评估模型deepseek-ai/DeepSeek-R1-Distill-Qwen-32B期间自动创建的数据集。数据集由7个配置组成,每个配置对应一个评估任务。数据集是从80次运行中创建的,每次运行都可以在各个配置中作为一个特定的分割找到,分割的名称使用运行的timestamp命名。'train'分割始终指向最新的结果。还有一个额外的配置'results'存储所有运行的聚合结果。
创建时间:
2025-11-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: Evaluation run of deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
- 来源: 在模型deepseek-ai/DeepSeek-R1-Distill-Qwen-32B评估运行期间自动创建
- 原始模型仓库: https://huggingface.co/datasets/YanAdjeNole/eppc-0shot
数据集结构
- 配置数量: 7个配置,每个对应一个评估任务
- 运行次数: 80次运行
- 数据组织:
- 每个运行在配置中作为特定分割
- 分割使用运行时间戳命名
- "train"分割始终指向最新结果
- 额外"results"配置存储所有运行的聚合结果
配置详情
模型配置列表
- Qwen__QwQ-32B-AWQ__EppcExtraction
- YanAdjeNole__sdoh-llama-3.3-70b__EppcExtraction
- aaditya__Llama3-OpenBioLLM-70B__EppcExtraction
- deepseek-ai__DeepSeek-R1-Distill-Llama-70B__EppcExtraction
- deepseek-ai__DeepSeek-R1-Distill-Qwen-32B__EppcExtraction
- google__gemma-2-27b-it__EppcExtraction
- meta-llama__Llama-3.1-70B-Instruct__EppcExtraction
- meta-llama__Llama-3.3-70B-Instruct__EppcExtraction
评估结果
最新运行结果
- 运行时间戳: 2025-11-14T08-02-59.514888
- 评估任务: EppcExtraction
性能指标
-
代码级别:
- 精确率(P): 0.6047
- 召回率(R): 0.6261
- F1分数: 0.6152
-
子代码级别:
- 精确率(P): 0.4722
- 召回率(R): 0.4933
- F1分数: 0.4825
-
跨度级别:
- 精确率(P): 0.7419
- 召回率(R): 0.7814
- F1分数: 0.7612
-
标准误差: N/A
数据访问
每个配置包含时间戳命名的分割和"latest"分割,指向最新结果文件。
搜集汇总
数据集介绍

构建方式
在人工智能模型评估领域,eppc-0shot数据集通过自动化流程构建而成。该数据集源自对deepseek-ai/DeepSeek-R1-Distill-Qwen-32B等系列模型的系统性评估运行,共整合了80次独立实验数据。每个评估任务对应特定配置,通过时间戳标记的分割点保存每次运行结果,最新数据始终映射至训练分割集。这种动态采集机制确保了评估结果的时效性与可追溯性,为模型性能分析提供了结构化数据基础。
特点
该数据集呈现出多维度评估架构的典型特征。其核心价值在于囊括了七个独立配置方案,覆盖不同模型在EppcExtraction任务中的表现数据。每个配置包含精确率、召回率和F1分数等关键指标,特别在代码、子代码及文本跨度三个层级提供细粒度评估。数据集通过时间序列分割保存历史运行记录,同时维护最新结果的实时更新,形成兼具历史纵深与即时性的评估矩阵。
使用方法
针对研究者的实际需求,数据集支持灵活的数据调用方式。用户可通过配置名称与时间戳分割点定向加载特定评估运行数据,例如调用deepseek-ai/DeepSeek-R1-Distill-Qwen-32B配置下的最新结果。数据集采用标准化JSON格式存储,可直接通过HuggingFace接口访问,其聚合结果配置更提供整体性能概览,便于横向比较不同模型在相同任务中的表现差异。
背景与挑战
背景概述
在自然语言处理领域,模型评估数据集作为衡量算法性能的关键工具,其构建与优化始终是学术研究的核心议题。eppc-0shot数据集由深度求索公司在2025年主导创建,专为评估DeepSeek-R1系列蒸馏模型在零样本场景下的表现而设计。该数据集通过80次独立实验运行,涵盖7种任务配置,聚焦于信息抽取任务的性能量化,其精确率、召回率与F1分数的多维评估体系,为大规模语言模型的迁移学习能力提供了重要基准。
当前挑战
该数据集面临的核心挑战在于零样本场景下模型泛化能力的精确评估,具体体现为信息抽取任务中代码级与子代码级语义单元的识别难题。构建过程中需克服多模型并行评估的技术复杂性,包括80次实验数据的时间戳对齐、任务配置间的指标一致性维护,以及动态更新机制中最新结果与历史数据的版本管理问题,这些因素共同构成了数据集质量控制的潜在瓶颈。
常用场景
经典使用场景
在自然语言处理领域,eppc-0shot数据集作为模型评估的基准工具,其核心应用聚焦于零样本场景下的信息抽取任务。该数据集通过系统化配置记录了多个大语言模型在EppcExtraction任务上的表现,为研究者提供了跨模型性能对比的标准化框架。在知识图谱构建与语义解析研究中,该数据集常被用于验证模型在未见领域中的泛化能力,其精确率、召回率与F1值的多维评估指标构成了模型能力评估的重要维度。
衍生相关工作
基于该数据集衍生的研究已形成系列重要成果。DeepSeek-R1系列模型的蒸馏优化、Llama架构的指令微调策略改进等研究均以该数据集的评估结果作为关键验证依据。在学术会议论文中,该数据集常被引用为大规模语言模型零样本能力评估的基准工具,其评估框架已被多个后续研究扩展应用于跨语言、多模态等新兴研究方向。
数据集最近研究
最新研究方向
在自然语言处理领域,零样本信息抽取技术正成为评估大语言模型泛化能力的关键方向。EPPC-0shot数据集通过系统化评估多模态大模型在流行病学上下文抽取任务中的表现,揭示了模型在代码识别、子代码分类及语义跨度检测三个维度的性能差异。当前研究聚焦于提升模型对复杂医学文本的结构化解析能力,尤其在公共卫生事件应急响应场景中,该数据集为优化生物医学实体关系抽取算法提供了基准支持。前沿探索方向包括融合领域知识的自适应微调策略,以及通过多任务学习增强模型在零样本设定下的鲁棒性,这些进展对推动智慧医疗与流行病预测系统的精准化发展具有深远意义。
以上内容由遇见数据集搜集并总结生成



