Knowledge Pile

github2024-02-20 更新2024-05-31 收录

下载链接：

https://github.com/ngc7292/query_of_cc

下载链接

链接失效反馈

官方服务：

资源简介：

This project is dataset and model checkpoints for the paper "Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora".

本项目为论文《Query of CC：从公开语料库中挖掘大规模特定领域知识》配套的数据集与模型检查点（model checkpoints）。

创建时间：

2024-02-01

原始信息汇总

数据集概述

数据集名称

Knowledge Pile

数据集描述

基于Query of CC方法构建的高质量知识数据集，涵盖STEM和人文科学等四大领域。

数据集规模

磁盘大小：735GB
令牌数量：188B（使用Llama2 tokenizer）

数据集内容

包含数学推理数据及丰富的知识导向文库，涉及生物学、物理学等多个领域。

数据来源

主要来自学术网站、高质量论坛及知识领域站点。
数据源时间分布显示，大部分数据来自近年，反映了互联网数据的增长趋势。

数据集更新历史

2024.3.5：发布完整数据集，修复统计错误。
2024.2.21：发布部分数据。
2024.1.26：发布相关论文。

引用信息

@article{fei2024query, title={Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora}, author={Fei, Zhaoye and Shao, Yunfan and Li, Linyang and Zeng, Zhiyuan and Yan, Hang and Qiu, Xipeng and Lin, Dahua}, journal={arXiv preprint arXiv:2401.14624}, year={2024} }

搜集汇总

数据集介绍

构建方式

Knowledge Pile数据集的构建基于一种名为*Query of CC*的高效数据收集方法。该方法通过大语言模型引导种子信息，从公共语料库中检索相关数据。具体而言，首先收集特定领域的种子信息，如关键词、常见问题和教科书内容，作为查询引导阶段的输入。随后，利用大语言模型的泛化能力，扩展初始种子信息，生成大量领域相关查询。通过**问题扩展**和**思维生成**两个阶段，分别在广度和深度上扩展查询，从而检索到更具广度和深度的领域相关数据。最后，基于这些查询从公共语料库中检索相关文档，经过去重和过滤等操作，形成最终的数据集。

使用方法

Knowledge Pile数据集的使用方法较为灵活。用户可以通过HuggingFace平台访问完整数据集，并根据研究需求选择特定领域的数据进行下载和分析。数据集适用于多种自然语言处理任务，如知识推理、领域特定问答和文本生成等。研究人员可以利用该数据集训练和评估大语言模型，尤其是在数学推理和跨领域知识理解方面的性能。此外，数据集的结构化设计和丰富的元数据信息，便于用户进行深入的数据分析和挖掘。

背景与挑战

背景概述

Knowledge Pile数据集由Zhaoye Fei等人于2024年提出，旨在通过大规模语言模型从公共语料库中挖掘领域特定知识。该数据集的核心研究问题在于如何高效地从海量数据中提取高质量的知识信息，特别是在STEM和人文科学等领域。通过引入Query of CC方法，研究人员利用语言模型的泛化能力，从种子信息中扩展出大量领域相关查询，进而从公共语料库中检索相关文档，最终构建了一个包含735GB数据和1880亿个令牌的高质量知识数据集。Knowledge Pile的发布为知识挖掘和推理任务提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

Knowledge Pile数据集在构建过程中面临多重挑战。首先，领域特定知识的挖掘需要处理海量数据，如何高效地从公共语料库中筛选出高质量且相关的文档是一个复杂的问题。其次，数据去重和过滤操作需要精确的算法支持，以确保数据集的纯净性和多样性。此外，Query of CC方法依赖于语言模型的泛化能力，如何确保扩展出的查询具有足够的广度和深度，以覆盖目标领域的知识范围，也是一个技术难点。最后，数据集的时效性要求较高，如何平衡历史数据与最新知识的比例，以反映知识的动态演变，也是构建过程中需要解决的挑战。

常用场景

经典使用场景

Knowledge Pile数据集在自然语言处理领域中被广泛用于训练和评估大规模语言模型。其独特的数据收集方法Query of CC通过大语言模型引导，从公共语料库中检索特定领域的知识数据，尤其适用于需要深度推理和广泛知识覆盖的任务。该数据集在学术研究、数学推理以及跨学科知识整合中展现了其强大的应用潜力。

解决学术问题

Knowledge Pile解决了大规模领域特定知识数据获取的难题。传统方法依赖于人工标注或有限的公开数据集，而该数据集通过自动化查询扩展和检索技术，高效地构建了高质量的知识库。它不仅降低了数据收集的成本，还显著提升了数据覆盖的广度和深度，为语言模型的训练提供了更为丰富的知识背景。

实际应用

在实际应用中，Knowledge Pile被用于开发智能问答系统、知识图谱构建以及跨领域知识推理工具。其涵盖的广泛领域知识使其成为教育、科研和工业界的重要资源。例如，在生物医学领域，该数据集可用于训练模型以回答复杂的科学问题；在人文科学中，它支持对历史事件和文化现象的深度分析。

数据集最近研究