GutenQA

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/LumberChunker/GutenQA

下载链接

链接失效反馈

官方服务：

资源简介：

GutenQA数据集包含从Project Gutenberg手动提取的100本公共领域叙事书籍的段落，每本书有30个问答对。该数据集专为问答任务设计，与多种检索/嵌入模型兼容。数据集结构包括书籍名称、唯一书籍标识符、书块标识符、章节名称、书块内容、相关问题、答案以及确保答案包含在特定字符串中的'Chunk Must Contain'字段。

创建时间：

2024-06-18

原始信息汇总

GutenQA 数据集概述

数据集描述

GutenQA 数据集包含从 Project Gutenberg 手动提取的书籍段落，并使用 LumberChunker 进行分割。该数据集包含以下特点：

100本公共领域叙事书籍
每本书30个问答对

数据集结构

数据集的列包括：

Book Name: 段落提取的书籍标题。
Book ID: 每本书的唯一整数标识符。
Chunk ID: 书籍每个块的整数标识符，按其在书中的顺序列出。
Chapter: 块所来自的章节名称。如果 LumberChunker 合并了来自多个章节的段落，则包括所有相关章节的名称。
Chunk: 每行包含一个书籍段落，这是 LumberChunker 对语义相似段落的分组。
Question: 与特定文本块相关的问题。注意，并非每个块都有相关问题，因为每本书只生成30个问题。
Answer: 与该块相关问题的答案。
Chunk Must Contain: 块中包含的特定子字符串，指示答案所在位置。这确保了尽管采用了分块方法，但正确的块包含此特定字符串。

数据集配置

数据集包含两个配置：

config_name: gutenqa
- split: gutenqa_chunks
- path: gutenqa_chunks.parquet
config_name: questions
- split: gutenqa_questions
- path: questions.parquet

兼容性

GutenQA 设计用于测试检索，因此兼容以下检索/嵌入模型：

搜集汇总

数据集介绍

构建方式

GutenQA数据集的构建基于Project Gutenberg中的公共领域叙事书籍，通过手动提取书籍段落，并利用LumberChunker工具对文本进行语义分块。每本书籍被分割为多个语义相关的段落，每个段落对应一个唯一的Chunk ID。此外，每本书籍生成了30个问答对，确保每个问答对与特定的文本段落相关联。数据集的构建过程注重文本的语义连贯性，并通过‘Chunk Must Contain’字段确保答案的准确性。

使用方法

GutenQA数据集主要用于测试和评估检索模型的性能。用户可以通过加载数据集中的文本段落和问答对，结合如DPR、Sentence Transformers等嵌入模型，进行语义检索实验。数据集提供了详细的代码示例，展示了如何加载数据、生成嵌入向量以及计算检索性能指标（如DCG@k）。用户可以根据具体需求，调整检索模型的参数，评估模型在不同书籍和问答对上的表现，从而优化检索算法的效果。

背景与挑战

背景概述

GutenQA数据集由André V. Duarte等人于2024年创建，旨在通过从Project Gutenberg中提取的公共领域叙事书籍构建问答对，以推动长文本问答和检索任务的研究。该数据集包含100本经典文学作品，每本书生成了30个问答对，涵盖了丰富的文学内容和多样的语言风格。通过使用LumberChunker工具对文本进行语义分段，GutenQA不仅为问答系统提供了高质量的标注数据，还为长文本的语义理解和检索任务提供了新的研究视角。该数据集的发布对自然语言处理领域的长文本处理、问答系统以及信息检索技术具有重要的推动作用。

当前挑战

GutenQA数据集在构建和应用中面临多重挑战。首先，长文本的语义分段和问答对生成需要高度的语义理解能力，以确保问题和答案的准确性和相关性。其次，由于文学作品的复杂性和多样性，生成的问题需要涵盖不同的语言风格和叙事结构，这对模型的泛化能力提出了较高要求。此外，数据集的构建过程中，如何确保问答对的多样性和覆盖性，避免重复或过于简单的问题，也是一个技术难点。最后，GutenQA的应用场景主要集中在长文本检索和问答系统，这对模型的上下文理解能力和计算效率提出了更高的要求，尤其是在处理大规模文本时，如何平衡精度与效率成为关键挑战。

常用场景

经典使用场景

GutenQA数据集广泛应用于问答系统的开发和评估，特别是在基于长文本的问答任务中。通过从Project Gutenberg中提取的100本公共领域叙事书籍，数据集提供了丰富的文本段落和对应的问答对，使得研究者能够深入探讨如何从长文本中准确提取信息。该数据集的使用场景包括但不限于信息检索、语义理解以及问答系统的性能评估。

解决学术问题

GutenQA数据集解决了长文本问答系统中的关键问题，如信息检索的准确性和语义理解的深度。通过提供30个问答对每本书，数据集帮助研究者评估模型在复杂文本环境下的表现，特别是在处理多段落、多章节的文本时。此外，数据集中的‘Chunk Must Contain’字段确保了答案的精确性，为问答系统的开发提供了可靠的基准。

实际应用

在实际应用中，GutenQA数据集被广泛用于开发智能问答系统，特别是在教育、图书馆和数字出版领域。通过利用该数据集，开发者能够训练和优化模型，使其能够从大量文本中快速准确地提取信息，从而提升用户体验。此外，该数据集还可用于构建个性化的阅读助手，帮助用户更好地理解和记忆书籍内容。

数据集最近研究