five

alabnii/morehopqa

收藏
Hugging Face2024-06-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/alabnii/morehopqa
下载链接
链接失效反馈
官方服务:
资源简介:
MoreHopQA是一个新的多跳推理数据集,旨在从提取式答案转向生成式答案。该数据集通过半自动化过程创建,包含1118个经过人工验证的样本。数据集基于三个现有的多跳推理数据集(HotpotQA、2Wiki-MultihopQA和MuSiQue),并增加了额外的推理层。每个样本包含多个字段,如问题、答案、上下文、前一个问题、前一个答案、问题分解、最后一跳问题、答案类型、前一个答案类型、跳数和推理类型。数据集主要用于分析和改进模型的多跳推理能力。

MoreHopQA是一个新的多跳推理数据集,旨在从提取式答案转向生成式答案。该数据集通过半自动化过程创建,包含1118个经过人工验证的样本。数据集基于三个现有的多跳推理数据集(HotpotQA、2Wiki-MultihopQA和MuSiQue),并增加了额外的推理层。每个样本包含多个字段,如问题、答案、上下文、前一个问题、前一个答案、问题分解、最后一跳问题、答案类型、前一个答案类型、跳数和推理类型。数据集主要用于分析和改进模型的多跳推理能力。
提供机构:
alabnii
原始信息汇总

MoreHopQA 数据集概述

数据集描述

MoreHopQA 是一个新的多跳问答数据集,从提取式答案转向生成式答案。该数据集通过利用三个现有的多跳问答数据集:HotpotQA、2Wiki-MultihopQA 和 MuSiQue,增强了现有的多跳问题,增加了另一层提问。数据集包含 1118 个经过人工验证的样本,推荐主要使用人工验证版本。

数据集结构

配置

  • verified: 包含经过人工验证的数据文件,默认配置。
    • 数据文件:
      • split: test
      • path: verified/test-*
  • unverified: 包含未经人工验证的数据文件。
    • 数据文件: data/without_human_verification.json

特征

每个样本包含以下字段:

  • question: 字符串类型,新的多跳问题。
  • context: 序列类型,包含标题和段落。
    • title: 字符串类型。
    • paragraphs: 序列类型,字符串。
  • answer: 字符串类型,最终答案。
  • previous_question: 字符串类型,前一个两跳问题。
  • previous_answer: 字符串类型,前一个两跳问题的答案。
  • question_decomposition: 序列类型,包含子问题分解。
    • sub_id: 字符串类型,链中的位置。
    • question: 字符串类型,子问题。
    • answer: 字符串类型,子问题的答案。
    • paragraph_support_title: 字符串类型,相关上下文段落。
  • question_on_last_hop: 字符串类型,最后一跳的问题。
  • answer_type: 字符串类型,预期答案的类型。
  • previous_answer_type: 字符串类型,前一个两跳问题答案的类型。
  • no_of_hops: 整数类型,回答额外推理问题所需的跳数。
  • reasoning_type: 字符串类型,可能包含 "Symbolic"、"Arithmetic"、"Commonsense",取决于所需的推理类型。

分割

  • test: 包含 1118 个样本,总字节数为 839113。

数据集大小

  • 下载大小: 201825 字节
  • 数据集大小: 839113 字节

许可证

数据集遵循 CC BY 4.0 许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作