laion/Subjects-for-curricular
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/Subjects-for-curricular
下载链接
链接失效反馈官方服务:
资源简介:
Subjects-for-curricular是一个由书籍标题和概念组成的聚类数据集,数据来源于opensyllabus-tagged-libgen和us-library-of-congress-subjects两个数据集。通过结合这两个数据集的文本字段,使用bge-large-en-v1.5模型将文本转换为嵌入向量,并应用K-means聚类算法将这些嵌入向量聚类成主题。数据集提供了k=10,000和k=20,000的聚类结果,以及每个聚类的中心嵌入向量。
Subjects-for-curricular是一个由书籍标题和概念组成的聚类数据集,数据来源于opensyllabus-tagged-libgen和us-library-of-congress-subjects两个数据集。通过结合这两个数据集的文本字段,使用bge-large-en-v1.5模型将文本转换为嵌入向量,并应用K-means聚类算法将这些嵌入向量聚类成主题。数据集提供了k=10,000和k=20,000的聚类结果,以及每个聚类的中心嵌入向量。
提供机构:
laion
原始信息汇总
Subjects-for-curricular
数据集概述
Subjects-for-curricular 是一个由书名和概念组成的聚类数据集,源自以下两个数据集的合并:
- https://huggingface.co/datasets/benxh/opensyllabus-tagged-libgen
- https://huggingface.co/datasets/benxh/us-library-of-congress-subjects
数据处理
-
数据字段选择:
- 从 US library of congress subjects 数据集(subjects_fixed.jsonl)中提取 text 字段。
- 从 opensyllabus 数据集中提取 name 字段。
-
嵌入转换:
- 使用 bge-large-en-v1.5 模型将文本数据转换为嵌入向量。
-
聚类处理:
- 使用 K-means 聚类算法对嵌入向量进行聚类。
- 包含 k=10,000 和 k=20,000 两种聚类结果:
- k=10,000 的聚类结果存储在
all_topic_clusters_10000.parquet文件中。 - k=20,000 的聚类结果存储在
all_topic_clusters_20000.parquet文件中。
- k=10,000 的聚类结果存储在
- 每种聚类结果均包含每个簇的质心嵌入向量。
- 聚类算法运行了 100 次迭代。



