SciIG-NAACL 2025,SciIG-ICLR 2025

Name: SciIG-NAACL 2025,SciIG-ICLR 2025
Creator: 伊利诺伊大学芝加哥分校,Adobe研究
Published: 2025-08-20 05:11:11
License: 暂无描述

arXiv2025-08-20 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/SciIG-NAACL-2025,https://huggingface.co/datasets/SciIG-ICLR-2025

下载链接

链接失效反馈

官方服务：

资源简介：

SciIG数据集由NAACL 2025和ICLR 2025会议的800篇和3100篇论文组成，涵盖了自然语言处理和机器学习领域。数据集包含论文标题、摘要、引言、作者和引用信息，旨在评估大型语言模型在生成研究论文引言方面的能力。数据集的创建过程包括从PDF文件中提取文本、使用正则表达式识别参考文献、使用LLaMA 4-Maverick模型进行数据增强，以及通过SemanticScholar API获取引用信息。这些数据集具有多样性，包括不同长度的引言和引用模式，非常适合评估科学引言生成任务。数据集将公开发布，以促进可重复性和未来研究。

The SciIG dataset comprises 800 papers from NAACL 2025 and 3100 papers from ICLR 2025, spanning the domains of natural language processing and machine learning. It contains paper titles, abstracts, introductions, author information and citation information, and is designed to evaluate the capabilities of large language models in generating research paper introductions. The dataset construction process includes extracting text from PDF files, identifying references via regular expressions, performing data augmentation using the LLaMA 4-Maverick model, and acquiring citation information through the Semantic Scholar API. This dataset exhibits diversity, including introductions of varying lengths and diverse citation patterns, making it highly suitable for evaluating scientific introduction generation tasks. The dataset will be publicly released to facilitate research reproducibility and advance future research.

提供机构：

伊利诺伊大学芝加哥分校,Adobe研究

创建时间：

2025-08-20

搜集汇总

数据集介绍

构建方式

SciIG数据集基于NAACL 2025和ICLR 2025会议收录论文构建，采用系统化的五阶段处理流程。首先从官方会议论文集和arXiv等平台获取PDF文献，随后利用S2ORC项目的grobid2json解析工具提取标题、摘要、引言、作者及参考文献等结构化信息。通过正则表达式识别引言中的相关文献引用，并借助LLaMA 4-Maverick模型将引用与参考文献条目精准匹配，最后通过SemanticScholar API获取引用文献的摘要和作者详情，形成包含丰富上下文引用的完整数据集。

特点

该数据集涵盖自然语言处理与机器学习两大核心领域，具有显著的学科多样性和文本复杂性。NAACL子集包含800篇论文，引言平均长度为597.1±228.4词；ICLR子集包含3100篇论文，引言平均长度达771.1±414.3词，最大长度达13,675词，对生成模型构成显著挑战。数据集引用密度较高，NAACL和ICLR子集平均每篇论文分别包含13.4和15.3次引用，体现了学术文本的密集知识关联特性，为评估模型在长文本处理和学术引用生成方面的能力提供了理想测试平台。

使用方法

数据集专为科学引言生成任务设计，输入包含论文标题、摘要及相关文献信息，输出为目标引言文本。评估采用多维度指标体系，包括词汇重叠度（ROUGE、BLEU）、语义相似度（BERTScore、BLEURT）、内容覆盖度、事实忠实度、一致性、引用准确性和叙事质量等七大类指标。支持零样本、少样本及复杂提示策略（如AutoCoT）等多种实验设置，可通过LLM-as-a-Judge评估框架结合自动化指标与人类评估，全面衡量生成文本的学术规范性和内容准确性。

背景与挑战

背景概述

SciIG数据集由伊利诺伊大学芝加哥分校与Adobe研究院联合团队于2025年创建，聚焦于科学论文引言生成的自动化评估。该数据集基于NAACL和ICLR会议收录的学术论文构建，涵盖自然语言处理与机器学习领域共3900篇样本。其核心研究在于系统评估大语言模型根据论文标题、摘要及相关文献生成符合学术规范的引言能力，通过多维度指标推动AI辅助学术写作的标准化发展，对计算语言学与人工智能交叉领域具有重要方法论意义。

当前挑战

该数据集需解决科学引言生成的语义连贯性、文献引用准确性与学术规范性三重核心挑战。构建过程中面临引文映射的精确对齐难题，需通过Grobid解析与语义学者API实现跨平台元数据整合；同时处理引言长度差异显著（42至13675词）及引文密度不均（每篇1-58条）的结构化问题，并确保生成文本与原始上下文的事实一致性，避免学术幻觉现象。

常用场景

经典使用场景

在自然语言处理研究领域，SciIG数据集被广泛用于评估大型语言模型生成科研论文引言的能力。该数据集通过整合论文标题、摘要及相关文献信息，为模型提供了生成学术引言的完整上下文，尤其适用于测试模型在保持内容连贯性、引用准确性和学术风格一致性方面的表现。研究者通常利用该数据集进行多维度评估，包括词汇重叠度、语义相似性和叙事质量等指标，以全面衡量模型在学术写作任务中的综合能力。

衍生相关工作

基于SciIG数据集，研究者开展了多项延伸工作。例如开发了专门针对学术引言的多维度评估体系，结合自动指标与LLM-as-a-Judge方法提升评估可靠性。另有研究探索了不同的提示策略，如少样本学习和自动思维链提示，以优化模型生成质量。这些工作不仅扩展了数据集的应用范围，还推动了学术文本生成领域的方法创新，为后续研究提供了重要参考。

数据集最近研究