arnosimons/astro-hep-corpus

Name: arnosimons/astro-hep-corpus
Creator: arnosimons
Published: 2024-06-18 10:02:11
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/arnosimons/astro-hep-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Astro-HEP Corpus数据集包含从1986年至2022年间发表在arXiv.org上的超过60万篇学术文章中提取的约2180万段落，涵盖天体物理学和高能物理学领域。数据集的主要用途是作为Astro-HEP-BERT模型的训练集，并用于分析天体物理学和高能物理学中的概念含义。数据集的构建使用了arXiv的元数据和分类法，通过Pandoc工具从LaTeX文件中提取纯文本，并对文本进行了清理和格式化处理。

The Astro-HEP Corpus consists of approximately 21.8 million paragraphs extracted from more than 600,000 scholarly articles related to astrophysics or high energy physics or both, published between 1986 and 2022 on arXiv.org. The primary purpose of the dataset is to serve as a training set for the Astro-HEP-BERT model and to analyze the meaning of concepts in astrophysics and high energy physics. The dataset was constructed using arXiv metadata and taxonomy, with plain text extracted from LaTeX files using Pandoc, followed by cleaning and formatting of the text.

提供机构：

arnosimons

原始信息汇总

数据集概述

基本信息

数据集名称: Astro-HEP Corpus
任务类别: 特征提取
语言: 英语
标签: 物理学, 天体物理学, 高能物理学, 科学, arXiv
数据量: 100K<n<1M

数据集描述

内容: 包含约2180万个段落，提取自超过60万篇与天体物理学或高能物理学相关的学术文章。
时间范围: 文章发表于1986年至2022年之间。
来源: 所有文章来自开放存取档案arXiv.org。

数据集结构

列名	描述
Text	段落的完整文本
Characters	段落中的Unicode字符数量
Subwords	段落中的BERT子词数量
arXiv ID	arXiv提供的父文章标识符
Year	父文章首次发表的年份
Month	父文章首次发表的月份
Day	父文章首次发表的日期
Position	文章中段落的位置

数据集用途

主要用途: 用于分析天体物理学和高能物理学中的概念意义，以及作为训练Astro-HEP-BERT模型的数据集。

数据集组成

时间分布: 文章按首次发表年份、类别（ASTRO或HEP）和子类别（ASTRO有六个子类别，HEP有四个子类别）进行时间分布。

数据集构建

选择标准: 使用arXiv的元数据文件和分类法选择文章。
文本提取: 使用Pandoc从arXiv.org的原始LaTeX文件中提取纯文本。
文本处理:
- 所有文内引用替换为"[CIT]"。
- 所有多行数学表达式替换为"FORMULA"。
- 行内数学表达式保持不变。
- 通过简单的换行符分割解析段落。
- 进行额外清理以移除作者和资助信息以及噪声段落。

详细信息

开发者: Arno Simons
资助: 由欧盟根据Grant协议ID: 101044932资助。
语言: 英语

搜集汇总

数据集介绍

构建方式

在科学文献数字化浪潮中，Astro-HEP Corpus的构建体现了对天体物理学与高能物理学领域文本的系统性整合。该数据集源自arXiv开放获取档案中1986年至2022年间发表的逾60万篇学术论文，通过原始元数据与学科分类体系筛选出相关文献。利用Pandoc工具从LaTeX源文件中提取纯文本，并对文本进行了规范化处理：将文内引用统一标记为“[CIT]”，多行数学表达式替换为“FORMULA”，同时保留行内数学公式。段落划分依据LaTeX标记与Pandoc解析结果，通过换行符直接分割完成，后续还清除了作者、资助信息及噪声段落，确保了文本的结构化与洁净度。

使用方法

该数据集主要服务于科学文本挖掘与概念语义分析。研究者可通过段落文本及其关联的元数据，进行大规模的语言建模训练，尤其适用于领域自适应预训练任务。在具体应用中，用户可依据arXiv ID、年份或学科子类筛选数据，考察特定术语或理论在不同时期的语境分布。例如，针对包含“Planck”的段落，可参考其标注子集Astro-HEP-Planck Corpus进行深入分析。数据集的结构化设计也支持对科学文献的段落级特征提取，如引用模式、数学表达密度等，为科学知识动力学研究提供量化依据。

背景与挑战

背景概述

在科学知识图谱与计算人文社科交叉研究兴起的背景下，Astro-HEP Corpus应运而生。该数据集由柏林工业大学的Arno Simons博士于2024年主导构建，并得到欧盟“实践中的网络认识论”项目资助。其核心研究问题聚焦于天体物理学与高能物理学领域内概念语义的动态演化与语境化表征，旨在通过从arXiv开放获取档案中系统提取1986年至2022年间超过60万篇学术文献的约2180万个段落，为大规模语言模型训练及科学概念的历史、哲学与社会学分析提供结构化文本基础。这一资源不仅支撑了专用领域语言模型Astro-HEP-BERT的开发，更推动了科学文本挖掘方法论的前沿探索。

当前挑战

该数据集致力于解决天体物理学与高能物理学领域内概念语义量化与历时性分析的挑战，其难点在于专业术语的多义性、数学表达与自然语言的交织，以及跨子领域知识体系的异构性。在构建过程中，面临多重技术障碍：需从原始LaTeX源码中精准提取并清洗纯文本，同时处理大量数学公式与引用标记的标准化替换；数据版权的不确定性限制了完整语料的公开共享，仅能提供部分标注子集；此外，跨三十余年学术文献的时序对齐与质量一致性维护，亦对元数据整合与段落解析流程提出了严峻考验。

常用场景

经典使用场景

在科学文献分析领域，Astro-HEP Corpus作为大规模专业文本资源，其经典使用场景集中于训练领域特定的语言模型。该数据集通过提取天体物理学与高能物理学领域的学术论文段落，为Astro-HEP-BERT等模型提供了丰富的训练语料，使得模型能够深入理解学科术语的语境含义。这种应用不仅提升了模型在专业领域的语义表征能力，还为后续的文本挖掘任务奠定了坚实基础。

解决学术问题

该数据集有效解决了科学哲学与科学社会学研究中的关键问题，即如何量化分析科学概念在历史演进中的语义变化。通过涵盖1986年至2022年的学术文献，研究者能够追踪特定术语如“Planck”在不同时期的语境差异，从而揭示科学范式的演变轨迹。这种基于大规模文本的实证方法，为理解科学知识的动态发展提供了可靠的数据支撑，推动了跨学科研究的深入。

实际应用

在实际应用中，Astro-HEP Corpus被广泛用于构建智能学术辅助工具。例如，基于该数据集训练的模型可以协助研究人员快速检索相关文献，自动生成领域综述，或识别新兴研究趋势。这些工具显著提升了科研效率，尤其在处理海量学术文献时，能够帮助学者精准定位关键信息，促进科学发现的加速。

数据集最近研究