LumberChunker/GutenQA_Propositions
收藏Hugging Face2024-09-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LumberChunker/GutenQA_Propositions
下载链接
链接失效反馈官方服务:
资源简介:
GutenQA-Propositions数据集基于100本公共领域的叙事书籍,这些书籍也用于GutenQA基准测试。该数据集将GutenQA的段落转换为命题,并包含书籍名称、书籍ID、块ID、章节、命题、问题和命题答案等列。数据集的组织方式使其适用于问答任务,特别是针对长文本的问答。
提供机构:
LumberChunker
原始信息汇总
GutenQA-Propositions 数据集概述
基本信息
- 许可证: MIT
- 任务类别: 问答
- 语言: 英语
数据集配置
- 配置名称: propositions
- 数据文件:
- 分割: proposition_chunks
- 路径: gutenqa_propositions_only.parquet
- 数据文件:
- 配置名称: questions
- 数据文件:
- 分割: proposition_questions
- 路径: gutenqa_propositions_questions.parquet
- 数据文件:
数据集结构
- 列信息:
Book Name: 书籍标题Book ID: 书籍唯一整数标识符Chunk ID: 书籍块的整数标识符,按书籍中的顺序列出Chapter: 块所属的章节名称,如果LumberChunker合并了多个章节的段落,则包含所有相关章节的名称Propositions: 每个行包含对应于GutenQA数据集中(Book ID, Chunk ID)对的命题集合Question: 与特定文本块相关的问题,并非每个块都有相关问题,每本书生成30个问题Proposition Answer: 与该块相关问题的答案命题
数据集来源
- 书籍来源: 数据集包含100本公共领域叙事书籍,源自GutenQA数据集。
- 处理方法: GutenQA数据集中的段落被转换为命题,如Dense X Retrieval: What Retrieval Granularity Should We Use中所述。



