pg19

Hugging Face2025-01-05 更新2025-01-06 收录

下载链接：

https://huggingface.co/datasets/Geralt-Targaryen/pg19

下载链接

链接失效反馈

官方服务：

资源简介：

pg19数据集经过清理和去重处理，并且在多个基准测试中进行了去污染处理，包括GLUE、SIQA、PIQA、QASC、CSQA、HellaSWAG、CONLL 2003、BLIMP、MAIN、BoolQ、WinoGrande、ANLI、ARC、RACE、MMLU、MATH、GSM8K、HumanEval、MBPP和GPQA。数据集包含26,283个样本，下载的parquet文件大小为5.8G。

pg19数据集已完成数据清洗与去重处理，并针对多个基准测试完成了数据去污染处理，涵盖如下基准：通用语言理解评估基准（GLUE）、社会情境问答基准（SIQA）、物理常识问答基准（PIQA）、问答常识推理基准（QASC）、常识问答基准（CSQA）、HellaSWAG、CONLL 2003、语言最小对测试基准（BLIMP）、MAIN、布尔问答基准（BoolQ）、Winograd大挑战（WinoGrande）、自然语言推理基准（ANLI）、ARC、RACE、大规模多任务语言理解基准（MMLU）、数学推理基准（MATH）、GSM8K、HumanEval、MBPP、GPQA。该数据集共计包含26,283个样本，其下载所得的Parquet文件大小为5.8 GB。

创建时间：

2024-12-27

原始信息汇总

数据集概述

基本信息

数据集名称: pg19
许可证: Apache-2.0
数据集来源: pg19
处理方式: 经过清理和近去重处理

数据集描述

去重处理: 该数据集已根据以下基准进行了去重处理，基于n-gram重叠：
- GLUE (SST-2、CoLA、QQP、WNLI、RTE、QNLI、MNLI的开发集；MPRC的测试集)
- SIQA、PIQA、QASC、CSQA、HellaSWAG (所有开发集)
- CONLL 2003
- BLIMP
- MAIN
- BoolQ (开发集)
- WinoGrande (开发集)
- ANLI (测试集)
- ARC easy和challenge (测试集)
- RACE middle和high (测试集)
- MMLU (开发、验证和测试集)
- MATH、GSM8K (测试集)
- HumanEval (测试集)
- MBPP (所有974个问题)
- GPQA (diamond)

数据集规模

样本数量: 26,283
下载的parquet文件大小: 5.8G

搜集汇总

数据集介绍

构建方式

pg19数据集的构建过程经过精心设计，以确保其高质量和实用性。该数据集首先通过清洗和近去重处理，确保文本的纯净性和唯一性。随后，通过n-gram重叠检测，对多个基准测试集进行了去污染处理，包括GLUE、SIQA、PIQA等，以确保数据在各类自然语言处理任务中的适用性。这一系列的预处理步骤使得pg19数据集在文本质量和任务适应性上达到了较高的标准。

使用方法

pg19数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究人员可以直接从HuggingFace平台下载该数据集，并利用其提供的parquet文件进行数据处理和分析。由于数据集已经过清洗和去污染处理，用户可以直接将其应用于模型训练和评估，而无需进行额外的预处理。pg19数据集特别适合用于测试和验证模型在复杂语言任务中的表现，如问答系统、文本分类和语言推理等。

背景与挑战

背景概述

pg19数据集由DeepMind于2019年推出，旨在为自然语言处理领域的研究者提供一个大规模的、高质量的文本数据集。该数据集包含了超过26,000本公共领域的书籍，涵盖了广泛的主题和风格，为语言模型的训练和评估提供了丰富的资源。pg19的创建不仅推动了长文本生成和理解的研究，还为文本去重和去污染技术的开发提供了重要的实验平台。该数据集的出现，极大地促进了自然语言处理领域的发展，尤其是在长文本建模和生成任务中，展现了其独特的价值。

当前挑战

pg19数据集在构建过程中面临了多重挑战。首先，数据的去重和去污染是一个复杂且耗时的过程，尤其是在处理大规模文本时，如何确保数据的纯净性和多样性成为了关键问题。其次，由于数据集中的书籍来自不同的年代和领域，文本的风格和语言表达差异较大，这对模型的泛化能力提出了更高的要求。此外，pg19的规模庞大，数据存储和处理的技术挑战也不容忽视。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

pg19数据集广泛应用于自然语言处理领域，特别是在长文本生成和语言模型训练中。该数据集包含了大量经过清洗和去重的长文本，为研究人员提供了一个丰富的语料库，用于训练和评估生成式模型。通过使用pg19，研究者能够更好地理解和模拟人类语言的复杂性和多样性。

解决学术问题

pg19数据集解决了自然语言处理领域中的多个关键问题，尤其是在长文本生成和语言模型评估方面。通过提供大量高质量的长文本数据，pg19帮助研究人员克服了传统短文本数据集在模型训练中的局限性，使得模型能够更好地捕捉长距离依赖关系和上下文信息。此外，pg19的去重和清洗过程确保了数据的纯净性，减少了模型训练中的噪声干扰。

实际应用

pg19数据集在实际应用中具有广泛的潜力，尤其是在自动文本生成、机器翻译和对话系统等领域。通过利用pg19中的丰富语料，开发者能够训练出更加智能和自然的语言模型，从而提升用户体验。例如，在自动写作助手和智能客服系统中，pg19可以帮助生成更加连贯和自然的文本，提高系统的实用性和用户满意度。

数据集最近研究