Query-of-CC/Knowledge_Pile

Name: Query-of-CC/Knowledge_Pile
Creator: Query-of-CC
Published: 2024-03-05 04:43:57
License: 暂无描述

Hugging Face2024-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Query-of-CC/Knowledge_Pile

下载链接

链接失效反馈

官方服务：

资源简介：

Knowledge Pile是一个基于Query of CC方法构建的知识相关数据集。该数据集通过初始种子信息的扩展和检索，从公共语料库中获取相关文档，最终形成高质量的知识数据集。数据集不仅包含数学推理数据，还涵盖了生物学、物理学等多个领域的知识，增强了其综合研究和应用潜力。数据集的部分统计信息显示，其主要来源于学术网站、高质量论坛和一些知识领域站点，且大部分数据来自近年。

提供机构：

Query-of-CC

原始信息汇总

数据集概述

Knowledge Pile 是一个与知识相关的数据集，利用了 Query of CC 的方法。该数据集是 Knowledge Pile 的一部分（约 40GB 磁盘大小），完整数据集已在 🤗 knowledge_pile_full 发布，总大小为 735GB 磁盘大小和 188B 个令牌（使用 Llama2 分词器）。

数据集构建方法

数据集构建分为两个阶段：问题扩展（Question Extension）和思维生成（Thought Generation），分别在广度和深度上扩展查询，以检索更广泛的领域相关数据。基于这些查询，从公共语料库中检索相关文档，并通过去重和过滤等操作形成最终的训练数据集。

数据集统计信息

Knowledge Pile 是一个高质量的知识数据集，覆盖了数学推理数据以及生物、物理等多个领域的丰富知识语料。数据集主要来源于学术网站、高质量论坛和一些知识领域网站。

数据来源统计

以下是 Knowledge Pile 中占比最高的 10 个网站域名：

Web Domain	Count
en.wikipedia.org	398833
www.semanticscholar.org	141268
slideplayer.com	108177
www.ncbi.nlm.nih.gov	97009
link.springer.com	85357
www.ipl.org	84084
pubmed.ncbi.nlm.nih.gov	68934
www.reference.com	61658
www.bartleby.com	60097
quizlet.com	56752

引用

@article{fei2024query, title={Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora}, author={Fei, Zhaoye and Shao, Yunfan and Li, Linyang and Zeng, Zhiyuan and Yan, Hang and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2401.14624}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集