slvnwhrl/blurbs-clustering-s2s
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slvnwhrl/blurbs-clustering-s2s
下载链接
链接失效反馈官方服务:
资源简介:
该数据集可作为德语词嵌入聚类的基准。数据集包含书籍标题,基于GermEval 2019共享任务的数据集。数据集包含17,726个独特样本,28个分割,每个分割的样本数从177到16,425不等,类别数从4到93不等。分割方式类似于MTEB的ArxivClusteringS2S。
This dataset can serve as a benchmark for German word embedding clustering. It consists of book titles and is based on the dataset from the GermEval 2019 shared task. The dataset contains 17,726 unique samples across 28 splits, where the number of samples per split ranges from 177 to 16,425, and the number of categories varies from 4 to 93. The splitting approach is similar to that of MTEB's ArxivClusteringS2S.
提供机构:
slvnwhrl
原始信息汇总
数据集概述
数据集名称
- 德语文本嵌入聚类基准
数据集用途
- 作为德语单词嵌入聚类的基准测试。
数据集内容
- 包含书籍标题。
- 基于GermEval 2019共享任务中的分层分类模糊数据集。
数据集规模
- 包含17,726个独特样本。
- 分为28个分割,每个分割包含177至16,425个样本。
- 每个分割包含4至93个唯一类别。
数据集结构
- 分割构建方式类似于MTEB的ArxivClusteringS2S。
数据集语言
- 德语
数据集标签
- 嵌入
- 聚类
- 基准
数据集许可证
- CC-BY-NC-4.0



