five

mteb/HALClusteringS2S.v2

收藏
Hugging Face2025-05-06 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/mteb/HALClusteringS2S.v2
下载链接
链接失效反馈
官方服务:
资源简介:
HALClusteringS2S.v2是一个法语单语种数据集,用于文本分类任务。它包含从HAL(学术文献库)中提取的标题,这些标题经过聚类处理。数据集的测试集包含2048个样本,每个样本是一个文本及其对应的标签。这个数据集是大规模文本嵌入基准(MTEB)的一部分,旨在评估嵌入模型在文本聚类任务上的性能。

HALClusteringS2S.v2 is a French monolingual dataset for text classification tasks. It contains titles extracted from HAL (an academic literature repository), which have been processed through clustering. The test set of the dataset includes 2048 samples, each consisting of a text and its corresponding label. This dataset is part of the Massive Text Embedding Benchmark (MTEB), aiming to evaluate the performance of embedding models on text clustering tasks.
提供机构:
mteb
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作