laion/Subjects-for-curricular

Name: laion/Subjects-for-curricular
Creator: laion
Published: 2023-12-20 10:01:21
License: 暂无描述

Hugging Face2023-12-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/laion/Subjects-for-curricular

下载链接

链接失效反馈

官方服务：

资源简介：

Subjects-for-curricular是一个由书籍标题和概念组成的聚类数据集，数据来源于opensyllabus-tagged-libgen和us-library-of-congress-subjects两个数据集。通过结合这两个数据集的文本字段，使用bge-large-en-v1.5模型将文本转换为嵌入向量，并应用K-means聚类算法将这些嵌入向量聚类成主题。数据集提供了k=10,000和k=20,000的聚类结果，以及每个聚类的中心嵌入向量。

提供机构：

laion

原始信息汇总

Subjects-for-curricular

数据集概述

Subjects-for-curricular 是一个由书名和概念组成的聚类数据集，源自以下两个数据集的合并：

https://huggingface.co/datasets/benxh/opensyllabus-tagged-libgen
https://huggingface.co/datasets/benxh/us-library-of-congress-subjects

数据处理

数据字段选择：
- 从 US library of congress subjects 数据集（subjects_fixed.jsonl）中提取 text 字段。
- 从 opensyllabus 数据集中提取 name 字段。
嵌入转换：
- 使用 bge-large-en-v1.5 模型将文本数据转换为嵌入向量。
聚类处理：
- 使用 K-means 聚类算法对嵌入向量进行聚类。
- 包含 k=10,000 和 k=20,000 两种聚类结果：
  - k=10,000 的聚类结果存储在 all_topic_clusters_10000.parquet 文件中。
  - k=20,000 的聚类结果存储在 all_topic_clusters_20000.parquet 文件中。
- 每种聚类结果均包含每个簇的质心嵌入向量。
- 聚类算法运行了 100 次迭代。

5,000+

优质数据集

54 个

任务类型

进入经典数据集