Query-of-CC/Knowledge_Pile
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Query-of-CC/Knowledge_Pile
下载链接
链接失效反馈官方服务:
资源简介:
Knowledge Pile是一个基于Query of CC方法构建的知识相关数据集。该数据集通过初始种子信息的扩展和检索,从公共语料库中获取相关文档,最终形成高质量的知识数据集。数据集不仅包含数学推理数据,还涵盖了生物学、物理学等多个领域的知识,增强了其综合研究和应用潜力。数据集的部分统计信息显示,其主要来源于学术网站、高质量论坛和一些知识领域站点,且大部分数据来自近年。
Knowledge Pile是一个基于Query of CC方法构建的知识相关数据集。该数据集通过初始种子信息的扩展和检索,从公共语料库中获取相关文档,最终形成高质量的知识数据集。数据集不仅包含数学推理数据,还涵盖了生物学、物理学等多个领域的知识,增强了其综合研究和应用潜力。数据集的部分统计信息显示,其主要来源于学术网站、高质量论坛和一些知识领域站点,且大部分数据来自近年。
提供机构:
Query-of-CC
原始信息汇总
数据集概述
Knowledge Pile 是一个与知识相关的数据集,利用了 Query of CC 的方法。该数据集是 Knowledge Pile 的一部分(约 40GB 磁盘大小),完整数据集已在 🤗 knowledge_pile_full 发布,总大小为 735GB 磁盘大小和 188B 个令牌(使用 Llama2 分词器)。
数据集构建方法
数据集构建分为两个阶段:问题扩展(Question Extension)和思维生成(Thought Generation),分别在广度和深度上扩展查询,以检索更广泛的领域相关数据。基于这些查询,从公共语料库中检索相关文档,并通过去重和过滤等操作形成最终的训练数据集。
数据集统计信息
Knowledge Pile 是一个高质量的知识数据集,覆盖了数学推理数据以及生物、物理等多个领域的丰富知识语料。数据集主要来源于学术网站、高质量论坛和一些知识领域网站。
数据来源统计
以下是 Knowledge Pile 中占比最高的 10 个网站域名:
| Web Domain | Count |
|---|---|
| en.wikipedia.org | 398833 |
| www.semanticscholar.org | 141268 |
| slideplayer.com | 108177 |
| www.ncbi.nlm.nih.gov | 97009 |
| link.springer.com | 85357 |
| www.ipl.org | 84084 |
| pubmed.ncbi.nlm.nih.gov | 68934 |
| www.reference.com | 61658 |
| www.bartleby.com | 60097 |
| quizlet.com | 56752 |
引用
@article{fei2024query, title={Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora}, author={Fei, Zhaoye and Shao, Yunfan and Li, Linyang and Zeng, Zhiyuan and Yan, Hang and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2401.14624}, year={2024} }



