slvnwhrl/blurbs-clustering-s2s

Name: slvnwhrl/blurbs-clustering-s2s
Creator: slvnwhrl
Published: 2024-01-08 08:34:19
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/slvnwhrl/blurbs-clustering-s2s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集可作为德语词嵌入聚类的基准。数据集包含书籍标题，基于GermEval 2019共享任务的数据集。数据集包含17,726个独特样本，28个分割，每个分割的样本数从177到16,425不等，类别数从4到93不等。分割方式类似于MTEB的ArxivClusteringS2S。

This dataset can serve as a benchmark for German word embedding clustering. It consists of book titles and is based on the dataset from the GermEval 2019 shared task. The dataset contains 17,726 unique samples across 28 splits, where the number of samples per split ranges from 177 to 16,425, and the number of categories varies from 4 to 93. The splitting approach is similar to that of MTEB's ArxivClusteringS2S.

提供机构：

slvnwhrl

原始信息汇总

数据集概述

数据集名称

德语文本嵌入聚类基准

数据集用途

作为德语单词嵌入聚类的基准测试。

数据集内容

包含书籍标题。
基于GermEval 2019共享任务中的分层分类模糊数据集。

数据集规模

包含17,726个独特样本。
分为28个分割，每个分割包含177至16,425个样本。
每个分割包含4至93个唯一类别。

数据集结构

分割构建方式类似于MTEB的ArxivClusteringS2S。

数据集语言

德语

数据集标签

嵌入
聚类
基准

数据集许可证

CC-BY-NC-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集