five

AstroConcepts

收藏
arXiv2026-04-02 更新2026-04-04 收录
下载链接:
https://huggingface.co/datasets/adsabs/SciX_UAT_keywords
下载链接
链接失效反馈
官方服务:
资源简介:
AstroConcepts是由哈佛-史密松森天体物理中心构建的大规模多标签天体物理文献语料库,包含21,702篇论文摘要,标注覆盖天文学统一词表(UAT)的2,367个层级化概念,数据源自NASA科学探索平台(SciX)索引的2018-2023年期刊文献。数据集平均每篇摘要含4.31个标签,呈现显著的长尾分布(76%概念出现少于50次),文本平均长度211词。该资源通过作者提交时标注的标准化UAT概念构建,旨在支持极端类别不均衡场景下的科学文献多标签分类研究,尤其适用于天体物理领域术语的少样本学习与层次化预测任务。

AstroConcepts is a large-scale multi-label astrophysical literature corpus constructed by the Harvard-Smithsonian Center for Astrophysics. It contains 21,702 paper abstracts, with annotations covering 2,367 hierarchical concepts from the Unified Astronomy Thesaurus (UAT). The dataset is sourced from 2018–2023 journal articles indexed by NASA’s SciX scientific exploration platform. On average, each abstract carries 4.31 labels, and the dataset exhibits a pronounced long-tailed distribution, where 76% of the concepts appear fewer than 50 times, with an average text length of 211 words. Built using standardized UAT concepts annotated during authors’ submission, this resource is designed to support multi-label classification research on scientific literature under extreme class imbalance scenarios, and is particularly applicable to few-shot learning and hierarchical prediction tasks for astrophysical domain terminology.
提供机构:
哈佛-史密松森天体物理中心; 瑞士远程大学·心理学院
创建时间:
2026-04-02
原始信息汇总

数据集概述

基本描述

  • 数据集名称:SciX_UAT_keywords
  • 数据来源:来自ADS/SciX的论文,这些论文已被标记了一些统一天文学词库(UAT)关键词。
  • 主要用途:文本分类。
  • 数据内容:包含论文的标题、摘要以及对应的UAT关键词标签和ID。

技术详情

  • 许可证:MIT
  • 任务类别:文本分类
  • 语言:英语
  • 数据规模:10K < n < 100K
  • 数据集结构:包含训练集(train)和验证集(val)。
    • 训练集:18,677行数据。
    • 验证集:3,025行数据。
  • 特征字段
    • bibcode:用于识别的文献代码。
    • title:论文标题。
    • abstract:论文摘要。
    • verified_uat_ids:与标记的UAT概念对应的整数ID列表。
    • verified_uat_labels:标记到该论文的UAT概念关键词列表。

使用说明

  • 关键词映射:建议使用UAT知识库(https://github.com/astrothesaurus/UAT)将ID匹配到概念(这些概念可能有同义词),并基于ID而非标签进行处理。
  • 样本示例:提供了一个数据样本,展示了各字段的具体内容。
搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献多标签分类领域,AstroConcepts数据集的构建依托于天文学文献的标准化标注实践。该数据集从NASA资助的科学探索者(SciX)数据库中,筛选了2018年至2023年间发表的21,702篇英文天体物理学论文摘要。其核心标注来源于作者在投稿过程中,依据统一天文学词表(UAT)为每篇论文手动分配的概念标签。UAT是一个包含2,367个概念、具有十一级层次结构的受控词汇表,确保了标注的领域专业性与一致性。构建过程严格遵循了数据质量标准,仅收录了至少分配一个UAT概念且摘要完整的论文,从而形成了一个规模适中、标注权威且可直接用于系统化研究的语料库。
特点
AstroConcepts数据集展现出科学文献分类中极具挑战性的典型特征。其最显著的特点是严重的标签不平衡分布,高达76%的概念在训练集中出现次数少于50次,呈现出典型的幂律分布长尾现象。数据集平均每篇摘要包含4.31个标签,反映了天体物理学研究的多面性与概念交叉性。标签空间覆盖了UAT词表中92%的概念,确保了概念覆盖的广度与深度。此外,作者标注偏好集中于词汇表的中等特异性层级,且倾向于选择跨 taxonomic 分支的概念组合,而非层级相关的概念,这为分类模型学习复杂的概念共现模式带来了额外挑战。
使用方法
该数据集主要用于系统化研究科学领域下的极端多标签文本分类问题。研究者可将数据集按85/15的比例划分为训练集和测试集,并采用标签感知的分层策略以保持各类别分布在分割中的平衡。评估时,除了使用宏观F1分数等聚合指标外,强烈推荐采用论文提出的频率分层评估框架,将概念按出现频率分为头部、躯干和尾部进行分别评估,并计算头尾性能差距作为鲁棒性度量。典型的使用范式包括:基于规则的字符串匹配、基于k近邻的相似性方法、对BERT、SciBERT及领域适应的astroBERT等Transformer模型进行监督微调,以及结合领域模型生成候选标签后利用大语言模型进行筛选的词汇约束混合方法。这些方法为在极端不平衡的科学术语分类中建立性能基准提供了系统路径。
背景与挑战
背景概述
AstroConcepts数据集由哈佛-史密松天体物理中心的研究团队于2026年发布,旨在解决科学文本多标签分类中的极端类别不平衡问题。该数据集包含21,702篇天体物理学论文的英文摘要,并标注了来自统一天文学词表(UAT)的2,367个专业概念,涵盖了天体物理学的完整概念体系。其核心研究问题聚焦于如何在高阶专业术语呈现严重幂律分布的自然场景下,实现有效的多标签分类。AstroConcepts的构建填补了现有科学语料库在可控词汇覆盖深度与可计算规模之间的空白,为系统研究极端不平衡场景下的分类方法提供了首个可操作的基准平台,对推动科学自然语言处理领域的方法论创新具有显著影响力。
当前挑战
AstroConcepts数据集所应对的核心领域挑战是科学文本的极端多标签分类问题,其难点在于专业术语遵循自然的幂律分布,导致76%的概念在训练集中出现少于50次,形成了严重的类别不平衡。这种长尾分布使得传统分类方法在预测稀有、高度专业化的概念时性能急剧下降。在构建过程中,研究团队面临多重挑战:首先,需要整合来自标准化出版流程的作者标注,这些标注仅为扁平化的终端概念,未包含层次结构路径,增加了模型从层次化词表中推理特定概念的难度;其次,确保标注质量与一致性,同时处理作者标注可能不完整所带来的噪声;最后,在保持数据集规模可计算性的前提下,实现对包含2,367个概念的完整UAT词汇的覆盖,以支持系统性的方法评估与比较。
常用场景
经典使用场景
在天体物理学文献智能处理领域,AstroConcepts数据集为极端多标签文本分类研究提供了标准化的实验平台。该数据集通过整合21,702篇论文摘要与2,367个统一天文学词表概念,构建了具有严重标签不平衡特性的评估环境。研究者可基于此开展层次感知分类方法、少样本学习策略以及领域自适应技术的系统性比较,其11级层次结构和自然幂律分布特征,为探索科学术语的长尾分布规律创造了理想条件。
实际应用
在天体物理学知识组织与文献管理实践中,AstroConcepts支撑着智能索引系统的开发与应用。学术出版机构可基于该数据集训练自动标引模型,辅助作者在投稿过程中准确选择标准化概念术语。数字图书馆系统能够利用训练后的分类器实现文献的细粒度主题组织,提升跨学科文献的检索精度。科研情报分析平台则可借助该数据集的分类能力,实时追踪新兴研究主题的演化轨迹,为学科发展态势分析提供数据支撑。
衍生相关工作
基于AstroConcepts的基准评估催生了多个重要研究方向。在模型架构方面,研究者开发了融合天文学词表约束的大语言模型管道,实现了参数高效的科学文本分类方案。评估方法论上,频率分层分析框架与头部-尾部性能差距指标被广泛应用于其他科学领域的极端多标签评估。同时,该数据集与AstroMLab等概念提取系统的互补性研究,推动了弱监督学习与专家标注数据的融合方法,为科学知识图谱的构建提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作