alabnii/morehopqa
收藏Hugging Face2024-06-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/alabnii/morehopqa
下载链接
链接失效反馈官方服务:
资源简介:
MoreHopQA是一个新的多跳推理数据集,旨在从提取式答案转向生成式答案。该数据集通过半自动化过程创建,包含1118个经过人工验证的样本。数据集基于三个现有的多跳推理数据集(HotpotQA、2Wiki-MultihopQA和MuSiQue),并增加了额外的推理层。每个样本包含多个字段,如问题、答案、上下文、前一个问题、前一个答案、问题分解、最后一跳问题、答案类型、前一个答案类型、跳数和推理类型。数据集主要用于分析和改进模型的多跳推理能力。
MoreHopQA是一个新的多跳推理数据集,旨在从提取式答案转向生成式答案。该数据集通过半自动化过程创建,包含1118个经过人工验证的样本。数据集基于三个现有的多跳推理数据集(HotpotQA、2Wiki-MultihopQA和MuSiQue),并增加了额外的推理层。每个样本包含多个字段,如问题、答案、上下文、前一个问题、前一个答案、问题分解、最后一跳问题、答案类型、前一个答案类型、跳数和推理类型。数据集主要用于分析和改进模型的多跳推理能力。
提供机构:
alabnii
原始信息汇总
MoreHopQA 数据集概述
数据集描述
MoreHopQA 是一个新的多跳问答数据集,从提取式答案转向生成式答案。该数据集通过利用三个现有的多跳问答数据集:HotpotQA、2Wiki-MultihopQA 和 MuSiQue,增强了现有的多跳问题,增加了另一层提问。数据集包含 1118 个经过人工验证的样本,推荐主要使用人工验证版本。
数据集结构
配置
- verified: 包含经过人工验证的数据文件,默认配置。
- 数据文件:
split: testpath: verified/test-*
- 数据文件:
- unverified: 包含未经人工验证的数据文件。
- 数据文件:
data/without_human_verification.json
- 数据文件:
特征
每个样本包含以下字段:
- question: 字符串类型,新的多跳问题。
- context: 序列类型,包含标题和段落。
- title: 字符串类型。
- paragraphs: 序列类型,字符串。
- answer: 字符串类型,最终答案。
- previous_question: 字符串类型,前一个两跳问题。
- previous_answer: 字符串类型,前一个两跳问题的答案。
- question_decomposition: 序列类型,包含子问题分解。
- sub_id: 字符串类型,链中的位置。
- question: 字符串类型,子问题。
- answer: 字符串类型,子问题的答案。
- paragraph_support_title: 字符串类型,相关上下文段落。
- question_on_last_hop: 字符串类型,最后一跳的问题。
- answer_type: 字符串类型,预期答案的类型。
- previous_answer_type: 字符串类型,前一个两跳问题答案的类型。
- no_of_hops: 整数类型,回答额外推理问题所需的跳数。
- reasoning_type: 字符串类型,可能包含 "Symbolic"、"Arithmetic"、"Commonsense",取决于所需的推理类型。
分割
- test: 包含 1118 个样本,总字节数为 839113。
数据集大小
- 下载大小: 201825 字节
- 数据集大小: 839113 字节
许可证
数据集遵循 CC BY 4.0 许可证。



