TaxoBench-CS

Name: TaxoBench-CS
Creator: 哈尔滨工业大学, 新加坡管理大学, 珀尔智能实验室
Published: 2025-09-23 23:12:58
License: 暂无描述

arXiv2025-09-23 更新2025-11-21 收录

下载链接：

https://github.com/zhukun1020/TaxoBench-CS

下载链接

链接失效反馈

官方服务：

资源简介：

TaxoBench-CS 是一个包含 11.6k 篇研究论文的 156 个专家构建的分类法数据集。该数据集由领域专家创建，提供了自然注释的分层结构，可以反映对主题分解的深入理解。数据集的构建过程是从 arXiv 上的计算机科学综述文章中系统地选择包含明确分层分类图的文章，通过解析相应的 LaTeX 源文件，提取直接链接到分类结构中的引用标识符，并映射到每个论文的关联 .bib 或 .bbl 文件中提供的完整标题。最后，从 Semantic Scholar 检索详细的论文元数据，并手动验证所有引用映射，以确保数据集的准确性和可靠性。TaxoBench-CS 数据集是一个丰富的、结构良好的资源，每个分类法包含平均 74.4 篇引用论文，跨越 3.1 个深度级别。每个分类法包含大约 24.8 个节点，代表结构化的语义类别。该数据集为评估和发展分类法生成方法提供了理想的基准，可以反映现实条件下的性能。

提供机构：

哈尔滨工业大学, 新加坡管理大学, 珀尔智能实验室

创建时间：

2025-09-23

搜集汇总

数据集介绍

构建方式

TaxoBench-CS数据集的构建依托于arXiv平台中计算机科学领域综述论文的自然标注分类体系，通过系统筛选包含明确层级化分类图的文献，解析其LaTeX源文件提取与分类结构直接关联的引用标识符，并借助Semantic Scholar的元数据接口获取完整论文信息。为确保数据质量，研究团队对所有引用映射关系进行人工核验，剔除错误或模糊条目，最终形成包含156个专家构建分类树的权威数据集，平均每个分类树涵盖74.4篇论文并具有3.1层深度结构。

特点

该数据集作为首个自然标注的学术文献分类基准，其核心特征体现在三个方面：层级结构源自领域专家撰写的综述文献，真实反映了学科知识的内在组织逻辑；每个分类节点均关联具体论文集合，同时包含结构化语义类别标签；数据规模覆盖11.6k篇论文，兼具聚类标注、层次架构与真实标注三重特性，为评估自动分类方法提供了接近实际应用场景的测试环境。

使用方法

研究者可将该数据集作为基准工具评估文献自动分类系统的性能，通过对比生成分类体系与专家标注在节点对齐度、语义一致性和结构完整性等维度的差异。具体应用时需加载预处理的分类树结构与论文元数据，利用标准化评估指标如归一化互信息、调整兰德指数进行量化分析，同时可结合人工评估验证分类结果在覆盖度、相关性和结构合理性等方面的实际效用。

背景与挑战

背景概述

随着科学文献的爆炸式增长，如何有效组织和归纳研究成果成为学术界的迫切需求。TaxoBench-CS数据集由哈尔滨工业大学与新加坡管理大学联合团队于2025年创建，旨在解决科学文献层次化分类体系构建的核心问题。该数据集基于arXiv平台收集的156篇计算机科学综述论文，涵盖11.6万篇研究文献，首次提供了由领域专家手工构建的层次化分类标准。其创新性在于通过多维度语义表征与动态聚类算法，突破了传统无监督聚类或直接提示大语言模型方法在连贯性和细粒度方面的局限，为科学文献的知识组织提供了重要基准。

当前挑战

在科学文献分类领域，传统方法面临分类体系连贯性不足和细粒度缺失的挑战。TaxoBench-CS构建过程中需解决多重技术难题：首先是如何从非结构化的学术论文中提取多维度语义特征，包括研究方法、数据集和评估指标等关键方面；其次需要设计动态聚类算法以优化层次结构划分，确保分类树既保持语义连贯又具备合理粒度。此外，数据集的标注过程涉及大量人工验证工作，需要确保从LaTeX源码提取的引用映射与语义学者数据库的元数据精确匹配，这对数据质量和可靠性提出了极高要求。

常用场景

经典使用场景

在科学文献组织领域，TaxoBench-CS数据集为层次化分类生成任务提供了首个自然标注的基准测试平台。该数据集通过收集arXiv上计算机科学综述论文中专家构建的156个分类树，涵盖了11.6k篇研究论文的真实层次结构。这些由领域专家精心构建的分类体系，深刻反映了对主题分解的专业理解，为评估分类生成方法的性能提供了可靠的参照标准。

实际应用

在实际应用层面，TaxoBench-CS为科研文献管理系统提供了重要支撑。该数据集能够帮助研究人员快速理解领域知识结构，追踪研究趋势，提升文献阅读效率。在学术搜索引擎和知识图谱构建中，基于该数据集训练的模型可以自动组织海量科学文献，形成语义连贯的层次化分类，显著改善科研工作者的信息获取体验。

衍生相关工作

围绕TaxoBench-CS数据集，衍生出一系列重要的研究工作。基于该基准，研究者提出了结合多维度论文编码与动态聚类的创新框架，显著提升了分类的连贯性和可解释性。这些工作进一步推动了纯LLM方法与聚类融合方法的技术融合，催生了更高效的文献组织工具，为自动化文献综述和领域知识发现开辟了新途径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集