griffin/ChemSum

Name: griffin/ChemSum
Creator: griffin
Published: 2024-01-20 12:38:53
License: 暂无描述

Hugging Face2024-01-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/griffin/ChemSum

下载链接

链接失效反馈

官方服务：

资源简介：

ChemSum数据集是一个专注于化学领域的学术论文摘要生成数据集。该数据集通过从多个开放获取的化学期刊中下载全文PDF，并使用Grobid工具提取文本段落和章节。数据集包含多个字段，如唯一标识符、文章标题、来源期刊、摘要、正文章节、章节标题、源文本的token数量、摘要的token数量以及压缩比。数据集分为训练集、验证集和测试集，分别包含115,956、1,000和2,000个样本。数据集的创建过程涉及从多个期刊中筛选化学主题的论文，并进行了详细的预处理。

ChemSum dataset is an academic paper summarization dataset focused on the chemistry domain. This dataset is constructed by downloading full-text PDFs from multiple open-access chemistry journals and extracting text paragraphs and sections using the Grobid tool. The dataset includes multiple fields, such as unique identifier, article title, source journal, abstract, main body sections, section titles, token count of source text, token count of abstract, and compression ratio. The dataset is split into training, validation, and test sets, which contain 115,956, 1,000, and 2,000 samples respectively. The dataset construction process involves screening papers on chemical topics from multiple journals and performing detailed preprocessing.

提供机构：

griffin

原始信息汇总

数据集卡片：ChemSum

ChemSum 描述

ChemSum 概述

我们引入了一个专注于化学领域的数据集，通过编译一系列开放获取的化学学术期刊文章。对于每个期刊，我们使用可用的API或通过Selenium Chrome WebDriver抓取从开放获取部分下载全文PDF文章。每个PDF文件通过本地安装的Grobid客户端处理，以提取带有章节的自由文本段落。

下表显示了从中获取开放获取文章的期刊以及处理的文章数量：

来源	文章数量
Beilstein	1,829
Chem Cell	546
ChemRxiv	12,231
Chemistry Open	398
Nature Communications Chemistry	572
PubMed Author Manuscript	57,680
PubMed Open Access	29,540
Royal Society of Chemistry (RSC)	9,334
Scientific Reports - Nature	6,826

对于所有期刊，我们筛选了提供化学主题的论文，当其他学科的论文也可用时（例如PubMed）。

语言

英语

数据集结构

数据字段

列	描述
`uuid`	示例的唯一标识符
`title`	文章标题
`article_source`	开放源期刊（见上表）
`abstract`	摘要（总结参考）
`sections`	文章正文的全文部分（<!>表示部分边界）
`headers`	`sections`字段的相应部分标题（<!>分隔）
`source_toks`	`sections`中的总令牌数
`target_toks`	`abstract`中的令牌数
`compression`	`source_toks`与`target_toks`的比率

请参考预处理脚本中的load_chemistry()函数，输入为sections和headers，目标为abstract。

数据分割

分割	数量
`train`	115,956
`validation`	1,000
`test`	2,000

引用信息

@inproceedings{adams-etal-2023-desired, title = "What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization", author = "Adams, Griffin and Nguyen, Bichlien and Smith, Jake and Xia, Yingce and Xie, Shufang and Ostropolets, Anna and Deb, Budhaditya and Chen, Yuan-Jyue and Naumann, Tristan and Elhadad, No{e}mie", editor = "Rogers, Anna and Boyd-Graber, Jordan and Okazaki, Naoaki", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.587", doi = "10.18653/v1/2023.acl-long.587", pages = "10520--10542", abstract = "Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on extit{how} to generate and optimize these sets. Less is known about extit{why} one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise{--}the disagreement between model and metric defined candidate rankings{--}minimized.", }

搜集汇总

数据集介绍

构建方式

在化学信息学领域，构建高质量的数据集对于推动学术文本自动摘要研究至关重要。ChemSum数据集的构建过程始于从多个开放获取的化学学术期刊中系统收集全文论文，这些期刊包括Beilstein、ChemRxiv、PubMed Open Access等知名来源。通过利用期刊提供的API或Selenium Chrome WebDriver进行网络爬取，研究人员获取了论文的PDF版本。随后，采用Grobid工具进行本地处理，以提取结构化的文本段落及其对应的章节标题，确保了数据的完整性与可解析性。最终，经过筛选仅保留化学主题的论文，并划分训练、验证和测试集，形成了一个规模达十余万样本的专用语料库。

特点

ChemSum数据集在科学文献摘要生成任务中展现出鲜明的专业特性。其核心在于专注于化学学科，涵盖了从基础研究到应用领域的广泛主题，如生物化学、药物化学等，这为模型训练提供了领域特定的语言模式与知识背景。数据集中每个样本均包含论文标题、摘要、正文章节及对应标题，并标注了源文本与摘要的词汇量及压缩比，便于深入分析文本复杂度与摘要质量之间的关系。此外，数据来源于多个权威期刊，确保了内容的多样性与学术严谨性，为长文本科学摘要的校准研究奠定了坚实基础。

使用方法

在自然语言处理应用中，ChemSum数据集主要用于训练和评估长文本科学摘要生成模型。使用者可通过加载预处理的`sections`和`headers`字段作为输入文本，将`abstract`字段作为目标摘要，构建序列到序列的学习任务。数据集已预先划分为训练集、验证集和测试集，支持直接用于模型训练、超参数调优及性能测试。研究人员可参考提供的GitHub代码库中的预处理函数，确保数据格式与模型需求对齐。该数据集尤其适用于探索摘要校准方法，如通过对比正负样本集来提升生成文本的相关性与忠实性，推动化学领域自动摘要技术的进步。

背景与挑战

背景概述

在自然语言处理领域，科学文献的自动摘要生成是一项极具挑战性的任务，尤其针对化学等专业学科，其文本蕴含复杂的专业术语与逻辑结构。ChemSum数据集由哥伦比亚大学的研究团队于2023年构建，并在ACL会议上正式发布，旨在为化学学术论文的长文本摘要生成提供高质量资源。该数据集汇集了来自Beilstein、ChemRxiv、PubMed等多个开放获取期刊的逾十万篇化学论文，通过自动化工具提取全文段落与摘要，核心研究聚焦于校准集在提升摘要模型性能中的作用，推动了科学文本摘要技术在专业领域的应用与发展。

当前挑战

ChemSum数据集致力于解决化学领域学术论文的自动摘要生成问题，其挑战在于化学文本中密集的专业概念、符号与实验描述，要求模型具备深度的领域知识理解能力，以生成准确且连贯的摘要。在构建过程中，研究团队面临数据获取与处理的复杂性：需从异构的开放获取平台爬取PDF文献，并依赖Grobid等工具进行文本解析，这一过程易受文档格式差异与提取错误的影响；同时，确保数据纯净性需过滤非化学学科论文，增加了数据清洗的难度。这些挑战共同凸显了专业领域数据集构建的技术壁垒。

常用场景

经典使用场景

在化学信息学与自然语言处理的交叉领域，ChemSum数据集为长文本科学摘要生成任务提供了关键资源。该数据集通过整合来自多个开放获取化学期刊的全文论文，构建了以章节内容为输入、摘要为目标的标准化语料。其经典应用场景在于训练和评估生成式模型，特别是针对化学学术文献的自动摘要生成，模型需从复杂的专业文本中提炼核心发现，生成简洁、准确的摘要，以支持学术信息的高效处理。

实际应用

在实际应用中，ChemSum数据集赋能化学研究与信息管理领域。它可集成至学术搜索引擎或知识库系统，自动为新增化学论文生成结构化摘要，加速文献调研与知识发现。在化学教育中，该技术能辅助学生快速把握论文要点；在工业研发中，则助力科研人员跟踪前沿进展，优化实验设计。此外，其框架可扩展至生物、医学等邻近学科，提升跨领域科学文本处理的自动化水平。

衍生相关工作

围绕ChemSum数据集，衍生了一系列聚焦科学摘要生成与校准机制的研究。其原始论文《What are the Desired Characteristics of Calibration Sets?》系统探讨了校准集在长文本科学摘要中的作用，启发了后续工作对负样本抽取策略、度量边际最大化等方向的深入分析。该数据集亦被用于评估对比学习、强化学习等在化学领域的适配性，推动了如生物医学文本摘要模型的跨域迁移研究，成为科学自然语言处理中校准与优化方法的重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集