slvnwhrl/tenkgnad-clustering-s2s

Name: slvnwhrl/tenkgnad-clustering-s2s
Creator: slvnwhrl
Published: 2024-01-08 08:32:02
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/slvnwhrl/tenkgnad-clustering-s2s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集可作为德语词嵌入聚类的基准。数据集包含新闻文章标题，基于[One Million Posts Corpus](https://ofai.github.io/million-post-corpus/)和[10kGNAD](https://github.com/tblock/10kGNAD)数据集。它包含10,267个独特样本，10个分割，每个分割包含1,436到9,962个样本，以及9个独特类别。分割方式类似于MTEB的[TwentyNewsgroupsClustering](https://huggingface.co/datasets/mteb/twentynewsgroups-clustering)。

提供机构：

slvnwhrl

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
语言: 德语
标签: 嵌入, 聚类, 基准测试
大小类别: 10K<n<100K

数据集内容

用途: 作为德语词嵌入聚类的基准测试数据集。
数据来源: 基于One Million Posts Corpus和10kGNAD。
数据内容: 包含新闻文章标题。
样本数量: 10,267个独特样本。
数据分割: 10个分割，每个分割包含1,436至9,962个样本。
类别数量: 9个独特类别。

slvnwhrl/tenkgnad-clustering-s2s

数据集概述

基本信息

数据集内容

相关资源