five

LumberChunker/GutenQA_Propositions

收藏
Hugging Face2024-09-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/LumberChunker/GutenQA_Propositions
下载链接
链接失效反馈
官方服务:
资源简介:
GutenQA-Propositions数据集基于100本公共领域的叙事书籍,这些书籍也用于GutenQA基准测试。该数据集将GutenQA的段落转换为命题,并包含书籍名称、书籍ID、块ID、章节、命题、问题和命题答案等列。数据集的组织方式使其适用于问答任务,特别是针对长文本的问答。
提供机构:
LumberChunker
原始信息汇总

GutenQA-Propositions 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 问答
  • 语言: 英语

数据集配置

  • 配置名称: propositions
    • 数据文件:
      • 分割: proposition_chunks
      • 路径: gutenqa_propositions_only.parquet
  • 配置名称: questions
    • 数据文件:
      • 分割: proposition_questions
      • 路径: gutenqa_propositions_questions.parquet

数据集结构

  • 列信息:
    • Book Name: 书籍标题
    • Book ID: 书籍唯一整数标识符
    • Chunk ID: 书籍块的整数标识符,按书籍中的顺序列出
    • Chapter: 块所属的章节名称,如果LumberChunker合并了多个章节的段落,则包含所有相关章节的名称
    • Propositions: 每个行包含对应于GutenQA数据集中(Book ID, Chunk ID)对的命题集合
    • Question: 与特定文本块相关的问题,并非每个块都有相关问题,每本书生成30个问题
    • Proposition Answer: 与该块相关问题的答案命题

数据集来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作