five

renobench-gepa-results

收藏
Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/cometadata/renobench-gepa-results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,涉及不同模型(如Llama-3、Mistral-7B、Qwen2_5、Qwen3)的输出,包括检查点、指标、预测和程序。每个配置具有不同的特征,如字符串、整数、浮点数和布尔值,表明数据点多样。数据集主要包含'train'分割,具有不同的字节数和示例数。
创建时间:
2026-01-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称: cometadata/renobench-gepa-results
  • 数据集地址: https://huggingface.co/datasets/cometadata/renobench-gepa-results

数据集配置与结构

该数据集包含多个配置(config),每个配置对应一个特定的数据子集。所有配置均仅包含一个“train”数据分割。

主要配置类型

  1. 预测结果(Predictions)

    • 包含字段:citing_article_doi, plaintext, expected_xml, generated_xml, field_scores
    • field_scores 为结构体,包含 article-title, bold, chapter-title 等共计55个布尔类型字段,用于评估各个字段的预测准确性。
    • 数据量:每个预测配置包含10,000个样本。
  2. 评估指标(Metrics)

    • 包含字段:overall, per_field, counts, model, timestamp, mode, inference_time_seconds, examples_per_second, num_threads。部分配置额外包含 is_reasoning_modelthinking_mode 字段。
    • 数据量:每个指标配置包含1个样本。
  3. 程序配置(Program)

    • 包含字段:program, enable_thinking, is_reasoning_model, sampling_config, timestamp, model_id
    • 数据量:每个程序配置包含1个样本。
  4. 检查点(Checkpoint)

    • 包含字段:program, iteration, score, timestamp, model_name, enable_thinking, is_reasoning_model
    • 数据量:每个检查点配置包含1个样本。

具体配置列表

数据集包含以下具体配置,主要围绕不同规模的Qwen3模型(0.6B、8B、32B)在“思考”(thinking)与“非思考”(nonthinking)模式下的评估结果:

  • Qwen3-0_6B_metrics
  • Qwen3-0_6B_nonthinking_checkpoint_latest
  • Qwen3-0_6B_nonthinking_metrics
  • Qwen3-0_6B_nonthinking_predictions
  • Qwen3-0_6B_nonthinking_program
  • Qwen3-0_6B_predictions
  • Qwen3-0_6B_thinking_checkpoint_latest
  • Qwen3-0_6B_thinking_metrics
  • Qwen3-0_6B_thinking_predictions
  • Qwen3-0_6B_thinking_program
  • Qwen3-32B_nonthinking_checkpoint_latest
  • Qwen3-32B_nonthinking_program
  • Qwen3-32B_thinking_checkpoint_latest
  • Qwen3-32B_thinking_program
  • Qwen3-8B_nonthinking_checkpoint_latest
  • Qwen3-8B_nonthinking_program
  • Qwen3-8B_thinking_checkpoint_latest
  • Qwen3-8B_thinking_program

数据规模

各配置的数据规模(dataset_size)与下载大小(download_size)各异。其中,预测结果配置(*_predictions)的数据量最大,例如:

  • Qwen3-0_6B_nonthinking_predictions: 数据集大小 16,432,256 字节,下载大小 6,147,567 字节。
  • Qwen3-0_6B_thinking_predictions: 数据集大小 23,623,511 字节,下载大小 6,995,365 字节。
  • Qwen3-0_6B_predictions: 数据集大小 21,744,295 字节,下载大小 6,917,514 字节。

其他配置(指标、程序、检查点)的数据集大小通常在2,400至7,300字节之间。

搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献结构化信息抽取领域,renobench-gepa-results数据集通过系统化的评估流程构建而成。该数据集源自对Qwen系列大型语言模型在GEPA任务上性能的全面评测,具体涵盖了Qwen3-0.6B、8B及32B等不同参数规模的模型。构建过程涉及模型在开启与关闭思维链模式下的预测输出,并记录了详尽的评估指标,包括整体性能、各字段得分、推理时间及吞吐量等。数据集的生成依托于标准化的评估程序,确保了结果的可复现性与一致性,为模型比较提供了坚实的数据基础。
特点
该数据集的核心特征在于其多维度的评估体系与细粒度的结果记录。数据集不仅包含模型在文献引用字段抽取上的预测结果与真实标注的对比,还囊括了丰富的元数据,如模型配置、时间戳、推理效率指标等。特别值得注意的是,数据集区分了思维链启用与禁用两种推理模式下的表现,并针对数十种具体的文献元数据字段提供了布尔型的准确率评分。这种结构化的设计使得研究者能够深入分析模型在不同任务难度和推理策略下的性能差异,为理解大语言模型的结构化信息抽取能力提供了宝贵的实证材料。
使用方法
研究者可利用该数据集进行大语言模型在结构化信息抽取任务上的性能分析与比较研究。通过加载特定的配置文件,例如‘Qwen3-0_6B_thinking_predictions’,用户可以访问模型在思维链模式下的详细预测结果与字段级评估分数。数据集支持对推理效率(如inference_time_seconds)和准确性(如field_scores)进行联合分析。此外,配套的metrics和program配置文件提供了模型评估的元信息与执行参数,便于复现实验或进行进一步的消融研究,探索不同模型规模与推理策略对学术文本理解能力的影响。
背景与挑战
背景概述
在自然语言处理领域,学术文献的结构化解析与信息抽取是知识发现与知识图谱构建的核心任务。renobench-gepa-results数据集应运而生,旨在评估大型语言模型在学术引用解析任务上的性能,特别是针对GEPA(Generic Element Parsing and Annotation)基准。该数据集由相关研究团队于近期构建,聚焦于模型如何将学术文献的纯文本引用转换为结构化的XML格式,涵盖文章标题、作者、出版信息等数十种细粒度字段。其核心研究问题在于探究模型在复杂语义理解与结构化输出生成方面的能力,尤其关注思维链(thinking)与非思维链(non-thinking)推理模式对性能的影响。该数据集为学术界提供了衡量模型在细粒度信息抽取任务上进展的重要工具,推动了自动化文献处理与知识管理技术的发展。
当前挑战
该数据集所针对的学术引用解析任务面临多重挑战。从领域问题角度看,学术引用文本具有高度多样性,包含缩写、多语言、非标准格式等复杂情况,要求模型具备深度的语义理解和上下文推理能力,以准确识别并结构化数十种字段,如作者姓名、期刊卷期、会议信息等。构建过程中的挑战则体现在数据标注的复杂性上,生成精确的XML结构化标签需要专业领域知识,且确保标注的一致性与准确性成本高昂。此外,评估不同模型配置(如思维链启用与否)的性能差异,需设计严谨的度量标准与对比实验,以区分模型在推理深度与输出准确性上的细微差别,这增加了数据集构建与结果解释的难度。
常用场景
经典使用场景
在学术文献结构化解析领域,Renobench-GEPA-Results数据集为评估大型语言模型在引文解析任务上的性能提供了基准。该数据集通过对比Qwen3系列模型在开启与关闭思维链模式下的预测结果,系统记录了模型从纯文本引文到结构化XML的转换能力。其经典使用场景在于为研究人员提供详尽的模型输出对比,包括生成XML的准确性、各字段的得分以及推理时间等指标,从而成为衡量模型在复杂结构化生成任务中表现的核心工具。
衍生相关工作
围绕该数据集,衍生了一系列针对引文解析和结构化生成的经典研究工作。这些工作深入探索了思维链提示在不同模型规模下的效能差异,并基于数据集的字段级得分开发了新的评估指标。相关研究进一步扩展了数据集的用途,将其应用于模型压缩、多语言引文解析以及跨领域结构化生成任务的迁移学习,推动了学术文献处理技术的创新与演进。
数据集最近研究
最新研究方向
在学术文献结构化信息抽取领域,Renobench-GEPA-Results数据集聚焦于评估大型语言模型在引文解析任务中的性能表现。该数据集通过对比Qwen3系列模型在不同参数规模和思维链启用状态下的预测结果,深入探索模型在生成结构化XML标注时的准确性与效率。前沿研究围绕思维链机制对细粒度实体识别的影响展开,结合模型推理时间与每秒处理样本数等指标,分析计算资源与精度之间的权衡关系。这一方向呼应了当前学术界对可解释人工智能与高效信息抽取技术的双重需求,为优化学术文献自动化处理流程提供了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作