mteb/arxiv-clustering-s2s

Name: mteb/arxiv-clustering-s2s
Creator: mteb
Published: 2025-05-04 16:27:42
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/arxiv-clustering-s2s

下载链接

链接失效反馈

官方服务：

资源简介：

ArXivHierarchicalClusteringS2S 是一个基于 arXiv 标题的聚类数据集，包含 30 个集合，这些集合要么属于主分类，要么属于二级分类。数据集适用于学术和书面领域的文本分类任务。

The ArXivHierarchicalClusteringS2S dataset involves clustering titles from arXiv, with 30 sets that are either main or secondary categories. It is suitable for text classification tasks in academic and written domains.

提供机构：

mteb

原始信息汇总

数据集语言信息

语言: 英语 (en)

搜集汇总

数据集介绍

构建方式

在学术文本挖掘领域，构建高质量的数据集对于评估文本嵌入模型的聚类能力至关重要。ArXivHierarchicalClusteringS2S数据集源自arXiv预印本库，通过系统性地抽取论文标题构建而成。其构建过程涉及从Kaggle平台获取原始arXiv元数据，并经过MTEB框架的标准化处理，确保数据的一致性与可复现性。该数据集专注于句子到句子的聚类任务，依据论文的主类别或次类别进行层次化标注，形成了包含2048个样本的测试集，为模型在学术文本上的聚类性能提供了严谨的评估基准。

特点

该数据集在学术文本聚类任务中展现出鲜明的特征。其文本内容全部为英文论文标题，覆盖了数学、计算机科学、物理学等多个核心学科领域，体现了高度的学术专业性。数据集中包含129个独特的类别标签，分布广泛且具有层次结构，能够有效检验模型对细粒度学术概念的区分能力。样本的文本长度适中，平均约73个字符，既保证了信息的完整性，又适合嵌入模型的高效处理。这些特点共同使其成为衡量文本嵌入模型在复杂、多类别学术环境中聚类性能的理想工具。

使用方法

为利用此数据集评估文本嵌入模型，研究者可借助MTEB基准测试框架。具体操作是导入mteb库，通过`get_tasks`函数获取“ArXivHierarchicalClusteringS2S”任务实例，并初始化MTEB评估器。随后，将待评估的嵌入模型实例传入评估器的`run`方法，即可自动执行聚类评估流程，并输出相应的性能指标。该方法标准化程度高，与MTEB生态无缝集成，极大简化了模型在学术文本聚类任务上的性能对比与验证工作。

背景与挑战

背景概述

在自然语言处理领域，文本嵌入模型的评估长期缺乏统一且全面的基准。为应对这一挑战，由Niklas Muennighoff等研究人员于2022年发起的MTEB（大规模文本嵌入基准）项目应运而生，旨在构建一个标准化的评估框架。作为MTEB的重要组成部分，ArXivHierarchicalClusteringS2S数据集于2025年随MMTEB（大规模多语言文本嵌入基准）扩展而正式推出。该数据集源自康奈尔大学维护的arXiv学术预印本库，专注于对论文标题进行句子级别的层次聚类任务，其核心研究问题在于检验嵌入模型在细粒度学术文本语义表示与结构化主题划分上的能力，为衡量模型在复杂、专业领域的语义理解性能提供了关键工具，显著推动了文本表示学习在学术领域的应用与发展。

当前挑战

该数据集旨在解决学术文本层次聚类这一特定领域问题的挑战，其核心在于如何让模型精准捕捉高度专业化且语义密集的论文标题之间的细微关联，并依据其主类别或次级类别进行准确划分。这要求模型不仅能理解通用语义，还需具备一定的领域知识以区分相近学科。在构建过程中，挑战主要源于数据源的异构性与标注复杂性。arXiv论文涵盖物理学、计算机科学、数学等众多学科，其类别体系本身具有层次性和交叉性，如何从原始元数据中清晰、一致地推导出适用于聚类评估的标签是一大难题。此外，确保数据子集在类别分布和样本数量上的平衡，以避免评估偏差，也对数据集的构建流程提出了较高要求。

常用场景

经典使用场景

在文本嵌入与聚类分析领域，ArXivHierarchicalClusteringS2S数据集为评估模型在学术文本上的语义表示能力提供了标准化的测试平台。该数据集源自arXiv预印本库的论文标题，涵盖多个学科类别，通过构建句子到句子的聚类任务，能够系统检验嵌入模型在捕捉细粒度主题相似性方面的性能。其经典使用场景集中于驱动大规模文本嵌入基准测试，为不同嵌入算法在学术文献组织中的效果提供客观比较依据。

衍生相关工作

围绕该数据集衍生的经典工作主要包括MTEB基准框架的持续拓展与优化，以及一系列针对学术文本嵌入的专用模型研究。例如，基于MMTEB的大规模多语言文本嵌入基准研究进一步整合了该数据集，推动了嵌入模型在跨语言学术场景下的评估标准化。同时，许多研究利用该数据集的聚类任务设计，探索了对比学习、层次化表示等技术在提升学术文本语义区分度方面的创新应用。

数据集最近研究