five

Query-of-CC/Knowledge_Pile

收藏
Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Query-of-CC/Knowledge_Pile
下载链接
链接失效反馈
官方服务:
资源简介:
Knowledge Pile是一个基于Query of CC方法构建的知识相关数据集。该数据集通过初始种子信息的扩展和检索,从公共语料库中获取相关文档,最终形成高质量的知识数据集。数据集不仅包含数学推理数据,还涵盖了生物学、物理学等多个领域的知识,增强了其综合研究和应用潜力。数据集的部分统计信息显示,其主要来源于学术网站、高质量论坛和一些知识领域站点,且大部分数据来自近年。

Knowledge Pile是一个基于Query of CC方法构建的知识相关数据集。该数据集通过初始种子信息的扩展和检索,从公共语料库中获取相关文档,最终形成高质量的知识数据集。数据集不仅包含数学推理数据,还涵盖了生物学、物理学等多个领域的知识,增强了其综合研究和应用潜力。数据集的部分统计信息显示,其主要来源于学术网站、高质量论坛和一些知识领域站点,且大部分数据来自近年。
提供机构:
Query-of-CC
原始信息汇总

数据集概述

Knowledge Pile 是一个与知识相关的数据集,利用了 Query of CC 的方法。该数据集是 Knowledge Pile 的一部分(约 40GB 磁盘大小),完整数据集已在 🤗 knowledge_pile_full 发布,总大小为 735GB 磁盘大小和 188B 个令牌(使用 Llama2 分词器)。

数据集构建方法

数据集构建分为两个阶段:问题扩展(Question Extension)和思维生成(Thought Generation),分别在广度和深度上扩展查询,以检索更广泛的领域相关数据。基于这些查询,从公共语料库中检索相关文档,并通过去重和过滤等操作形成最终的训练数据集。

数据集统计信息

Knowledge Pile 是一个高质量的知识数据集,覆盖了数学推理数据以及生物、物理等多个领域的丰富知识语料。数据集主要来源于学术网站、高质量论坛和一些知识领域网站。

数据来源统计

以下是 Knowledge Pile 中占比最高的 10 个网站域名:

Web Domain Count
en.wikipedia.org 398833
www.semanticscholar.org 141268
slideplayer.com 108177
www.ncbi.nlm.nih.gov 97009
link.springer.com 85357
www.ipl.org 84084
pubmed.ncbi.nlm.nih.gov 68934
www.reference.com 61658
www.bartleby.com 60097
quizlet.com 56752

引用

@article{fei2024query, title={Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora}, author={Fei, Zhaoye and Shao, Yunfan and Li, Linyang and Zeng, Zhiyuan and Yan, Hang and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2401.14624}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作