five

GutenQA

收藏
Hugging Face2024-06-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/LumberChunker/GutenQA
下载链接
链接失效反馈
官方服务:
资源简介:
GutenQA数据集包含从Project Gutenberg手动提取的100本公共领域叙事书籍的段落,每本书有30个问答对。该数据集专为问答任务设计,与多种检索/嵌入模型兼容。数据集结构包括书籍名称、唯一书籍标识符、书块标识符、章节名称、书块内容、相关问题、答案以及确保答案包含在特定字符串中的'Chunk Must Contain'字段。
创建时间:
2024-06-18
原始信息汇总

GutenQA 数据集概述

数据集描述

GutenQA 数据集包含从 Project Gutenberg 手动提取的书籍段落,并使用 LumberChunker 进行分割。该数据集包含以下特点:

  • 100本公共领域叙事书籍
  • 每本书30个问答对

数据集结构

数据集的列包括:

  • Book Name: 段落提取的书籍标题。
  • Book ID: 每本书的唯一整数标识符。
  • Chunk ID: 书籍每个块的整数标识符,按其在书中的顺序列出。
  • Chapter: 块所来自的章节名称。如果 LumberChunker 合并了来自多个章节的段落,则包括所有相关章节的名称。
  • Chunk: 每行包含一个书籍段落,这是 LumberChunker 对语义相似段落的分组。
  • Question: 与特定文本块相关的问题。注意,并非每个块都有相关问题,因为每本书只生成30个问题。
  • Answer: 与该块相关问题的答案。
  • Chunk Must Contain: 块中包含的特定子字符串,指示答案所在位置。这确保了尽管采用了分块方法,但正确的块包含此特定字符串。

数据集配置

数据集包含两个配置:

  • config_name: gutenqa
    • split: gutenqa_chunks
    • path: gutenqa_chunks.parquet
  • config_name: questions
    • split: gutenqa_questions
    • path: questions.parquet

兼容性

GutenQA 设计用于测试检索,因此兼容以下检索/嵌入模型:

搜集汇总
数据集介绍
main_image_url
构建方式
GutenQA数据集的构建基于Project Gutenberg中的公共领域叙事书籍,通过手动提取书籍段落,并利用LumberChunker工具对文本进行语义分块。每本书籍被分割为多个语义相关的段落,每个段落对应一个唯一的Chunk ID。此外,每本书籍生成了30个问答对,确保每个问答对与特定的文本段落相关联。数据集的构建过程注重文本的语义连贯性,并通过‘Chunk Must Contain’字段确保答案的准确性。
使用方法
GutenQA数据集主要用于测试和评估检索模型的性能。用户可以通过加载数据集中的文本段落和问答对,结合如DPR、Sentence Transformers等嵌入模型,进行语义检索实验。数据集提供了详细的代码示例,展示了如何加载数据、生成嵌入向量以及计算检索性能指标(如DCG@k)。用户可以根据具体需求,调整检索模型的参数,评估模型在不同书籍和问答对上的表现,从而优化检索算法的效果。
背景与挑战
背景概述
GutenQA数据集由André V. Duarte等人于2024年创建,旨在通过从Project Gutenberg中提取的公共领域叙事书籍构建问答对,以推动长文本问答和检索任务的研究。该数据集包含100本经典文学作品,每本书生成了30个问答对,涵盖了丰富的文学内容和多样的语言风格。通过使用LumberChunker工具对文本进行语义分段,GutenQA不仅为问答系统提供了高质量的标注数据,还为长文本的语义理解和检索任务提供了新的研究视角。该数据集的发布对自然语言处理领域的长文本处理、问答系统以及信息检索技术具有重要的推动作用。
当前挑战
GutenQA数据集在构建和应用中面临多重挑战。首先,长文本的语义分段和问答对生成需要高度的语义理解能力,以确保问题和答案的准确性和相关性。其次,由于文学作品的复杂性和多样性,生成的问题需要涵盖不同的语言风格和叙事结构,这对模型的泛化能力提出了较高要求。此外,数据集的构建过程中,如何确保问答对的多样性和覆盖性,避免重复或过于简单的问题,也是一个技术难点。最后,GutenQA的应用场景主要集中在长文本检索和问答系统,这对模型的上下文理解能力和计算效率提出了更高的要求,尤其是在处理大规模文本时,如何平衡精度与效率成为关键挑战。
常用场景
经典使用场景
GutenQA数据集广泛应用于问答系统的开发和评估,特别是在基于长文本的问答任务中。通过从Project Gutenberg中提取的100本公共领域叙事书籍,数据集提供了丰富的文本段落和对应的问答对,使得研究者能够深入探讨如何从长文本中准确提取信息。该数据集的使用场景包括但不限于信息检索、语义理解以及问答系统的性能评估。
解决学术问题
GutenQA数据集解决了长文本问答系统中的关键问题,如信息检索的准确性和语义理解的深度。通过提供30个问答对每本书,数据集帮助研究者评估模型在复杂文本环境下的表现,特别是在处理多段落、多章节的文本时。此外,数据集中的‘Chunk Must Contain’字段确保了答案的精确性,为问答系统的开发提供了可靠的基准。
实际应用
在实际应用中,GutenQA数据集被广泛用于开发智能问答系统,特别是在教育、图书馆和数字出版领域。通过利用该数据集,开发者能够训练和优化模型,使其能够从大量文本中快速准确地提取信息,从而提升用户体验。此外,该数据集还可用于构建个性化的阅读助手,帮助用户更好地理解和记忆书籍内容。
数据集最近研究
最新研究方向
GutenQA数据集在自然语言处理领域的应用主要集中在问答系统和文本检索模型的评估与优化上。随着深度学习技术的快速发展,基于预训练语言模型的问答系统已成为研究热点。GutenQA通过提供来自公共领域叙事书籍的段落和对应的问题-答案对,为研究者提供了一个丰富的测试平台。当前的研究方向包括如何利用该数据集提升检索模型的精确度,特别是在长文本段落中的语义理解与信息提取能力。此外,GutenQA还支持多种嵌入模型(如DPR、Sentence Transformers等)的评估,推动了跨模型性能比较的研究。该数据集的出现不仅为问答系统的开发提供了新的挑战,也为文本检索技术的进步提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作