三个新的层次文本分类基准数据集

Name: 三个新的层次文本分类基准数据集
Creator: 斯泰伦博斯大学
Published: 2024-11-28 21:06:48
License: 暂无描述

arXiv2024-11-28 更新2024-12-03 收录

下载链接：

http://arxiv.org/abs/2411.19119v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了三个新的层次文本分类（HTC）基准数据集，这些数据集由斯泰伦博斯大学的研究团队创建，旨在用于研究出版物的分类任务。数据集包含来自Web of Science出版数据库的论文标题和摘要，采用了期刊和引文两种分类方案，并通过结合这两种方案来提高分类的准确性。数据集的创建过程详细描述了如何通过过滤和组合分类来优化数据集的质量。这些数据集主要应用于机器学习技术在科学出版物分类中的研究，旨在解决现有数据集分类不准确和缺乏详细创建方法的问题。

This paper presents three novel Hierarchical Text Classification (HTC) benchmark datasets constructed by a research team at Stellenbosch University for scientific research on publication classification tasks. The datasets include paper titles and abstracts retrieved from the Web of Science publication database, employ two distinct classification schemas: journal-based and citation-based, and integrate both schemas to enhance classification accuracy. The detailed dataset creation process elaborates on how to optimize dataset quality through filtering and combining classification schemas. These datasets are primarily applied to research on machine learning technologies for scientific publication classification, aiming to address the issues of inaccurate classification and lack of detailed creation methodologies in existing datasets.

提供机构：

斯泰伦博斯大学

创建时间：

2024-11-28

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Web of Science出版数据库中的学术论文标题和摘要，采用了两种现有的分类方案：基于期刊的分类和基于引用的分类。首先，创建了两个基线数据集，分别使用这两种分类方案。随后，鉴于这两种方案的不足，提出了一种结合两者的方法，通过过滤掉在两种分类方案中不一致的类别和文档，从而提高了数据集的可靠性和鲁棒性。最终，通过聚类分析验证了所提出方法的有效性，确保属于同一类别的文档在语义上更为相似。

特点

该数据集的独特之处在于其平衡性，通过在层次结构的第二级中均匀采样文档，使得数据集在类别分布上显著优于现有的层次文本分类基准数据集。此外，通过结合基于期刊和基于引用的分类方案，该数据集在类别分配的准确性和文档的语义相似性方面表现出色，为机器学习方法提供了更为可靠的训练和测试环境。

使用方法

该数据集适用于层次文本分类任务，特别是针对学术出版物的分类。研究者可以使用该数据集来训练和评估层次文本分类模型，通过比较不同模型在该数据集上的表现，可以更好地理解和改进层次分类技术。此外，该数据集还可用于探索多标签分类和跨学科研究领域的分类问题，为相关研究提供丰富的数据支持。

背景与挑战

背景概述

层次文本分类（Hierarchical Text Classification, HTC）是自然语言处理领域中的一项重要任务，旨在将文本文档分类到具有层次结构的类别集合中。近年来，随着机器学习技术的发展，HTC方法得到了广泛关注和研究。然而，现有的HTC基准数据集，如Web Of Science (WOS)、Reuters Corpus Volume 1 Version 2 (RCV1-V2)和New York Times (NYT)，在数据集创建方法的详细描述方面存在不足。为此，Jaco du Toit、Herman Redelinghuys和Marcel Dunaiski等研究人员于2024年提出了三个新的HTC基准数据集，这些数据集基于Web of Science出版数据库中的论文标题和摘要，旨在提供更详细的数据集创建方法，以促进分类方法的可重复性和可靠性。

当前挑战

这些新数据集在构建过程中面临多重挑战。首先，现有的期刊和引文分类方案存在不准确和不可靠的问题，导致分类结果的可靠性受到质疑。其次，引文分类方案不允许文档属于多个研究领域，限制了多学科研究出版物的正确分类。此外，数据集的平衡性问题也是一个重要挑战，因为现有的HTC数据集在类别分布上存在显著不平衡。为了应对这些挑战，研究人员提出了一种结合期刊和引文分类的方法，并通过过滤技术提高了分类的准确性和鲁棒性。然而，如何进一步优化分类方案以提高多学科出版物的分类精度，以及如何确保数据集在不同层次上的平衡性，仍然是未来研究的重要方向。

常用场景

经典使用场景

在自然语言处理领域，层次文本分类（HTC）任务旨在将文本文档分类到层次结构中的类别集合中。三个新的层次文本分类基准数据集通过结合现有的期刊和引文分类模式，提供了更为细致和平衡的分类方案。这些数据集特别适用于需要高精度分类的场景，如科学出版物的自动分类和信息检索系统中的文档组织。通过这些数据集，研究人员可以评估和改进现有的HTC方法，从而提高分类性能和文档检索的准确性。

实际应用

在实际应用中，这些新的层次文本分类数据集可以广泛应用于科学出版物的自动分类、学术文献的组织与检索、以及跨学科研究成果的识别与归类。例如，在学术搜索引擎中，这些数据集可以帮助提高搜索结果的相关性和准确性；在科研管理中，它们可以用于自动生成研究报告和分析研究趋势。此外，这些数据集还可以支持跨学科研究项目的自动分类和资源分配，从而提高科研效率和成果的可视化。

衍生相关工作

基于这三个新的层次文本分类基准数据集，研究者们已经开展了一系列相关工作。例如，Wang et al. [2022b]提出的Hierarchy-aware Prompt Tuning（HPT）方法，通过引入层次感知的提示来增强大型语言模型的输入序列，从而提高了分类性能。此外，du Toit and Dunaiski [2024]提出的Hierarchy-aware Prompt Tuning for Discriminative PLMs（HPTD）方法，进一步扩展了HPT方法，使其适用于判别性语言模型。这些工作不仅提升了层次文本分类的准确性，还为未来的研究提供了新的方向和基准。

以上内容由遇见数据集搜集并总结生成