five

三个新的层次文本分类基准数据集|文本分类数据集|科学出版物数据集

收藏
arXiv2024-11-28 更新2024-12-03 收录
文本分类
科学出版物
下载链接:
http://arxiv.org/abs/2411.19119v1
下载链接
链接失效反馈
资源简介:
本文介绍了三个新的层次文本分类(HTC)基准数据集,这些数据集由斯泰伦博斯大学的研究团队创建,旨在用于研究出版物的分类任务。数据集包含来自Web of Science出版数据库的论文标题和摘要,采用了期刊和引文两种分类方案,并通过结合这两种方案来提高分类的准确性。数据集的创建过程详细描述了如何通过过滤和组合分类来优化数据集的质量。这些数据集主要应用于机器学习技术在科学出版物分类中的研究,旨在解决现有数据集分类不准确和缺乏详细创建方法的问题。
提供机构:
斯泰伦博斯大学
创建时间:
2024-11-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于Web of Science出版数据库中的学术论文标题和摘要,采用了两种现有的分类方案:基于期刊的分类和基于引用的分类。首先,创建了两个基线数据集,分别使用这两种分类方案。随后,鉴于这两种方案的不足,提出了一种结合两者的方法,通过过滤掉在两种分类方案中不一致的类别和文档,从而提高了数据集的可靠性和鲁棒性。最终,通过聚类分析验证了所提出方法的有效性,确保属于同一类别的文档在语义上更为相似。
特点
该数据集的独特之处在于其平衡性,通过在层次结构的第二级中均匀采样文档,使得数据集在类别分布上显著优于现有的层次文本分类基准数据集。此外,通过结合基于期刊和基于引用的分类方案,该数据集在类别分配的准确性和文档的语义相似性方面表现出色,为机器学习方法提供了更为可靠的训练和测试环境。
使用方法
该数据集适用于层次文本分类任务,特别是针对学术出版物的分类。研究者可以使用该数据集来训练和评估层次文本分类模型,通过比较不同模型在该数据集上的表现,可以更好地理解和改进层次分类技术。此外,该数据集还可用于探索多标签分类和跨学科研究领域的分类问题,为相关研究提供丰富的数据支持。
背景与挑战
背景概述
层次文本分类(Hierarchical Text Classification, HTC)是自然语言处理领域中的一项重要任务,旨在将文本文档分类到具有层次结构的类别集合中。近年来,随着机器学习技术的发展,HTC方法得到了广泛关注和研究。然而,现有的HTC基准数据集,如Web Of Science (WOS)、Reuters Corpus Volume 1 Version 2 (RCV1-V2)和New York Times (NYT),在数据集创建方法的详细描述方面存在不足。为此,Jaco du Toit、Herman Redelinghuys和Marcel Dunaiski等研究人员于2024年提出了三个新的HTC基准数据集,这些数据集基于Web of Science出版数据库中的论文标题和摘要,旨在提供更详细的数据集创建方法,以促进分类方法的可重复性和可靠性。
当前挑战
这些新数据集在构建过程中面临多重挑战。首先,现有的期刊和引文分类方案存在不准确和不可靠的问题,导致分类结果的可靠性受到质疑。其次,引文分类方案不允许文档属于多个研究领域,限制了多学科研究出版物的正确分类。此外,数据集的平衡性问题也是一个重要挑战,因为现有的HTC数据集在类别分布上存在显著不平衡。为了应对这些挑战,研究人员提出了一种结合期刊和引文分类的方法,并通过过滤技术提高了分类的准确性和鲁棒性。然而,如何进一步优化分类方案以提高多学科出版物的分类精度,以及如何确保数据集在不同层次上的平衡性,仍然是未来研究的重要方向。
常用场景
经典使用场景
在自然语言处理领域,层次文本分类(HTC)任务旨在将文本文档分类到层次结构中的类别集合中。三个新的层次文本分类基准数据集通过结合现有的期刊和引文分类模式,提供了更为细致和平衡的分类方案。这些数据集特别适用于需要高精度分类的场景,如科学出版物的自动分类和信息检索系统中的文档组织。通过这些数据集,研究人员可以评估和改进现有的HTC方法,从而提高分类性能和文档检索的准确性。
实际应用
在实际应用中,这些新的层次文本分类数据集可以广泛应用于科学出版物的自动分类、学术文献的组织与检索、以及跨学科研究成果的识别与归类。例如,在学术搜索引擎中,这些数据集可以帮助提高搜索结果的相关性和准确性;在科研管理中,它们可以用于自动生成研究报告和分析研究趋势。此外,这些数据集还可以支持跨学科研究项目的自动分类和资源分配,从而提高科研效率和成果的可视化。
衍生相关工作
基于这三个新的层次文本分类基准数据集,研究者们已经开展了一系列相关工作。例如,Wang et al. [2022b]提出的Hierarchy-aware Prompt Tuning(HPT)方法,通过引入层次感知的提示来增强大型语言模型的输入序列,从而提高了分类性能。此外,du Toit and Dunaiski [2024]提出的Hierarchy-aware Prompt Tuning for Discriminative PLMs(HPTD)方法,进一步扩展了HPT方法,使其适用于判别性语言模型。这些工作不仅提升了层次文本分类的准确性,还为未来的研究提供了新的方向和基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

VisDrone2019

适用于小目标航拍图像检测的数据集,已提前下载并在datasets文件夹下划分了训练集、测试集和验证集。

github 收录