five

structured_paper_summarization

收藏
Hugging Face2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/Neooooo/structured_paper_summarization
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含约19,000篇来自商业、管理、信息系统和社会科学领域研究论文的151,000个对话式提示→结构化摘要对的数据集。每个示例显示了如何将完整的论文正文文本压缩成包含五个部分的Emerald风格的structured abstract(目的、设计/方法论/方法、发现、实际意义、原创性/价值)。

This is a dataset containing 151,000 conversational prompt-to-structured abstract pairs derived from approximately 19,000 research papers across the fields of business, management, information systems, and social sciences. Each example demonstrates how to compress the full text of a research paper into an Emerald-style structured abstract with five sections: purpose, design/methodology/methods, findings, practical implications, and originality/value.
创建时间:
2025-04-25
原始信息汇总

数据集概述:structured_paper_summarization

数据集简介

  • 目的:提供约151k条聊天式提示→结构化摘要对,用于训练大型语言模型(LLMs)生成结构化学术摘要。
  • 来源:基于约19,000篇商业、管理、信息系统和社会科学领域的研究论文构建。

数据集规模

拆分 样本数 大小(压缩)
训练集 145,067 626 MB
测试集 6,650 29 MB
总计 151,717 ≈655 MB

数据结构

  • 特征

    • title:字符串,论文标题。
    • keywords:字符串序列,作者提供的关键词(0-23个)。
    • messages:字典列表,包含ChatML风格的对话。
      • role"user""assistant"
      • content:UTF-8文本。
  • 典型对话模式: json [ { "role": "user", "content": "Summarize the following paper into structured abstract.

<full paper text>" }, { "role": "assistant", "content": "Purpose: … Design/methodology/approach: … Findings: … Practical implications: … Originality/value: …" } ]

适用场景

  • 指令微调聊天LLMs以进行长文档摘要。
  • 研究受控文本生成和输出格式化。
  • 训练必须引用源论文部分的检索增强系统。

数据来源与构建

  1. 通过机构访问Emerald Insight语料库收集全文文章。
  2. 提取期刊提供的规范结构化摘要作为真实标签。
  3. 将文章主体嵌入到上述形式的提示中。
  4. 转换为Hugging Face datasets格式并自动存储为Parquet文件。

许可与使用条款

  • 论文文本:受原始出版商/作者版权保护,仅限非商业研究使用。
  • 元数据与结构化摘要:采用CC BY-NC 4.0许可。
  • 使用要求
    • 不得重新分发原始论文文本。
    • 在衍生作品中引用原始文章。
    • 遵守Emerald的使用政策和本地版权法。

引用方式

text @dataset{hu_2025_structured_prompts, author = {Xingyu Hu}, title = {structured_paper_summarization}, year = 2025, url = {https://huggingface.co/datasets/Neooooo/structured_paper_summarization}, note = {Version 1.0} }

贡献

欢迎通过PR提交:

  • 修复元数据错误。
  • 提供额外拆分(验证集、特定领域子集)。
  • 添加评估或预处理脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统性采集商业、管理、信息系统及社会科学领域约19,000篇研究论文构建而成,核心数据来源于Emerald Insight知识库的开放获取及订阅内容。构建流程首先提取期刊提供的标准结构化摘要作为基准真值,随后将论文正文嵌入特定提示模板形成对话式样本,最终转化为Hugging Face datasets支持的Parquet格式。原始文本保留出版时的自然状态,未进行人工清洗以维持学术真实性。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,Apache Parquet格式支持流式读取以提升大文件处理效率。典型应用场景包括:基于指令微调优化聊天模型的长文档摘要能力,探索受控文本生成中的格式一致性保持机制,或开发需要精确引证原文的检索增强系统。使用时应遵守CC BY-NC 4.0许可,商业用途需获得原始版权方授权。
背景与挑战
背景概述
structured_paper_summarization数据集由Xingyu Hu于2025年构建,旨在解决学术文献结构化摘要生成的难题。该数据集源自Emerald Insight数据库,涵盖商业、管理、信息系统及社会科学领域的19,000余篇研究论文,包含15.1万条论文全文与结构化摘要的配对样本。其核心价值在于为大型语言模型提供标准化训练数据,以提升模型在长文本精确压缩和严格格式输出方面的能力,填补了学术文本结构化生成任务的空白。数据集采用Emerald五段式摘要框架(目的、方法、发现、实践意义、原创性价值),为自然语言处理领域的研究者提供了重要基准。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,学术文献的复杂语义结构和专业术语要求模型具备深层理解能力,同时需严格遵循预设的摘要框架,这对生成内容的准确性和格式一致性提出极高要求;在构建过程中,原始论文存在OCR识别错误和排版噪声,且不同学科领域的表述差异增加了数据标准化的难度。此外,版权限制使得数据仅限非商业研究使用,这在一定程度上制约了数据集的广泛应用。长文本截断至8千令牌的设计也可能导致部分语义信息丢失,为模型训练引入潜在偏差。
常用场景
经典使用场景
在学术文本处理领域,structured_paper_summarization数据集为长文档结构化摘要任务提供了标准化的研究基准。该数据集通过15万篇商业、管理、信息系统等领域的论文及其对应的五段式结构化摘要,成为训练语言模型生成符合学术规范摘要的黄金标准。研究者可利用其ChatML格式的对话数据,开发能够理解并遵循'目的-方法-发现-价值'等固定段落要求的摘要生成系统。
解决学术问题
该数据集有效解决了自然语言处理中的两个核心难题:长文本信息压缩的准确性问题和结构化输出的可控生成问题。通过提供精确对齐的论文全文与Emerald风格摘要,为研究社区建立了评估模型学术文本理解能力的新范式。其价值体现在推动可控文本生成技术的发展,并为学术写作辅助工具提供了可量化的评估基准。
实际应用
在实际应用层面,该数据集支撑了多个产业场景的智能化升级。学术出版商利用其训练自动摘要系统提升文献处理效率,科研机构开发基于结构化摘要的知识图谱构建工具,教育领域则将其作为学术写作智能辅导系统的核心训练数据。特别在文献综述自动化场景中,模型生成的标准化摘要显著提高了研究者筛选文献的准确率。
数据集最近研究
最新研究方向
在学术文本结构化摘要生成领域,structured_paper_summarization数据集为大型语言模型(LLMs)的精细调优提供了重要资源。该数据集聚焦于商业、管理、信息系统及社会科学领域的论文,通过将长篇学术文本转化为五部分结构化摘要(目的、设计/方法/途径、发现、实践意义、原创性/价值),解决了LLMs在长文本压缩和严格输出结构遵循方面的双重挑战。当前研究热点包括利用该数据集进行指令微调,以提升模型在长文档摘要生成中的准确性和结构性,同时探索其在可控文本生成和检索增强系统中的应用。这一方向不仅推动了学术文本处理的自动化进程,也为跨领域知识整合提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作