five

laion/Subjects-for-curricular

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/Subjects-for-curricular
下载链接
链接失效反馈
官方服务:
资源简介:
Subjects-for-curricular是一个由书籍标题和概念组成的聚类数据集,数据来源于opensyllabus-tagged-libgen和us-library-of-congress-subjects两个数据集。通过结合这两个数据集的文本字段,使用bge-large-en-v1.5模型将文本转换为嵌入向量,并应用K-means聚类算法将这些嵌入向量聚类成主题。数据集提供了k=10,000和k=20,000的聚类结果,以及每个聚类的中心嵌入向量。

Subjects-for-curricular是一个由书籍标题和概念组成的聚类数据集,数据来源于opensyllabus-tagged-libgen和us-library-of-congress-subjects两个数据集。通过结合这两个数据集的文本字段,使用bge-large-en-v1.5模型将文本转换为嵌入向量,并应用K-means聚类算法将这些嵌入向量聚类成主题。数据集提供了k=10,000和k=20,000的聚类结果,以及每个聚类的中心嵌入向量。
提供机构:
laion
原始信息汇总

Subjects-for-curricular

数据集概述

Subjects-for-curricular 是一个由书名和概念组成的聚类数据集,源自以下两个数据集的合并:

  • https://huggingface.co/datasets/benxh/opensyllabus-tagged-libgen
  • https://huggingface.co/datasets/benxh/us-library-of-congress-subjects

数据处理

  1. 数据字段选择

    • 从 US library of congress subjects 数据集(subjects_fixed.jsonl)中提取 text 字段。
    • 从 opensyllabus 数据集中提取 name 字段。
  2. 嵌入转换

  3. 聚类处理

    • 使用 K-means 聚类算法对嵌入向量进行聚类。
    • 包含 k=10,000 和 k=20,000 两种聚类结果:
      • k=10,000 的聚类结果存储在 all_topic_clusters_10000.parquet 文件中。
      • k=20,000 的聚类结果存储在 all_topic_clusters_20000.parquet 文件中。
    • 每种聚类结果均包含每个簇的质心嵌入向量。
    • 聚类算法运行了 100 次迭代。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作