scholarly-shadows-syndicate/2wikimultihopqa_with_q_gpt35

Name: scholarly-shadows-syndicate/2wikimultihopqa_with_q_gpt35
Creator: scholarly-shadows-syndicate
Published: 2024-01-14 23:42:54
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/scholarly-shadows-syndicate/2wikimultihopqa_with_q_gpt35

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是2WikiMultihopQA数据集的增强版本，其中每个支持句子都通过OpenAI的GPT-3.5 turbo API生成了问题。这一增强旨在为每个条目提供更丰富的上下文，可能有助于各种自然语言处理任务，如问答和上下文理解。数据集的每个条目包含问题、上下文、支持事实、证据和答案等信息。此外，文件还提到了训练分割的不可用性、商业使用的注意事项以及对原始数据集的引用要求。

提供机构：

scholarly-shadows-syndicate

原始信息汇总

2WikiMultihopQA Dataset with GPT-3.5 Generated Questions

概述

本仓库托管了2WikiMultihopQA数据集的增强版本，其中每个支持句都补充了使用OpenAI的GPT-3.5 turbo API生成的问题。目的是为每个条目提供更丰富的上下文，可能有利于各种NLP任务，如问答和上下文理解。

数据集格式

数据集中的每个条目格式如下：

json { "_id": "example_id", "type": "sample_type", "question": "Sample question text?", "context": { "title": ["Title 1", "Title 2"], "content": [ [["Content 1 for Title 1","Content 2 for Title 1"]], [["Content 1 for Title 2"]] ], "questions": [ // 新增 [["Question 1 for Title 1"],["Question 2 for Title 1"]], [["Question 1 for Title 2"]] ], "paraphrased_questions": [ // 新增 [["Paraphrased Question 1 for Title 1"],["Paraphrased Question 2 for Title 1"]], [["Paraphrased Question 1 for Title 2"]] ] }, "supporting_facts": { "title": ["Title 1", "Title 2"], "sent_id": [0, 0] }, "evidences": { "fact": ["Fact 1", "Fact 2"], "relation": ["relation_1", "relation_2"], "entity": ["Entity 1", "Entity 2"] }, "answer": "sample_answer" }

重要通知

1. 训练集不可用

目前，该增强数据集的训练集仍在计算中，不可用。我们正在积极处理，一旦准备就绪，将更新仓库。

2. 商业使用注意事项

用户应注意，由OpenAI的GPT-3.5 turbo API生成的问题可能不适用于商业用途，根据OpenAI的服务条款。我们建议谨慎行事，并在任何商业部署前审查OpenAI的政策。

3. 原始数据集引用

该增强数据集基于2wikimultihop数据集。使用该增强数据集的用户也应引用原始的2wikimultihop数据集。有关原始数据集的更多信息，请访问2wikimultihop Dataset on Github。

搜集汇总

数据集介绍

构建方式

在知识推理与问答系统研究领域，数据集的丰富性与多样性对模型性能具有关键影响。本数据集以经典的2WikiMultihopQA为基础，通过OpenAI的GPT-3.5 turbo API对原始数据中的每个支持句子进行自动化问题生成与改写，从而构建出增强版本。具体而言，针对上下文中的每个标题及其对应内容，系统生成了直接关联的问题及其多种释义形式，并以结构化JSON格式整合了原始的证据链、实体关系与答案，形成多层次的语义增强数据。

特点

该数据集的核心特点在于其多层次的问题增强机制，为多跳推理任务提供了更为丰富的语义上下文。每个条目不仅包含原始的问题、支持事实与答案，还新增了针对各支持句子生成的问题及其多种释义，这显著扩展了数据在上下文理解与问答泛化能力评估方面的应用维度。同时，数据集严格保留了原始2WikiMultihopQA的结构化证据链与实体关系，确保了多跳推理的逻辑完整性，为复杂问答系统的训练与评估提供了高质量资源。

使用方法

在自然语言处理研究中，该数据集适用于多跳问答、上下文理解及问题生成等任务的模型训练与评估。使用者可通过加载JSON格式的数据条目，利用新增的问题与释义字段进行上下文敏感的语义分析或数据增强。需要注意的是，当前训练分割尚在计算中暂不可用，且生成的问题需遵循OpenAI服务条款，避免直接用于商业场景。建议研究者结合原始2WikiMultihopQA的引用规范，在学术实验中探索其在提升模型推理泛化能力方面的潜力。

背景与挑战

背景概述

在自然语言处理领域，多跳问答任务旨在评估模型从多个文档中整合信息并进行复杂推理的能力。2WikiMultihopQA数据集由日本国立情报学研究所（NII）的研究团队于2020年创建，其核心研究问题聚焦于通过维基百科结构化数据，推动机器在知识推理与证据链追溯方面的进展。该数据集通过构建需要多步逻辑推理的问题，显著提升了问答系统在复杂语义理解与跨文档信息关联方面的研究基准，对推动可解释人工智能与知识驱动型NLP模型的发展产生了深远影响。

当前挑战

该数据集所针对的多跳问答领域，主要挑战在于模型需克服语义鸿沟与推理路径的模糊性，准确识别分散于不同文档中的支持事实，并构建连贯的逻辑链条。在构建过程中，挑战体现在数据增强的复杂性：利用GPT-3.5生成问题时，需确保生成问题的多样性、语义一致性以及与原始上下文的紧密关联，同时避免引入偏差或噪声。此外，数据集的训练分割尚未完成计算，且生成内容涉及商业使用限制，这些因素均对数据集的完整性与应用范围构成了实际制约。

常用场景

经典使用场景

在自然语言处理领域，多跳问答任务要求模型通过整合多个文档片段中的信息来推理答案。2WikiMultihopQA数据集以其结构化的问题-上下文对，为这一复杂任务提供了标准化的评估基准。该数据集通过引入维基百科条目间的关联事实，模拟了真实世界中知识检索与融合的挑战，成为训练和测试模型多步推理能力的经典资源。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典工作，如基于图神经网络的证据检索模型、强化学习驱动的多跳推理框架，以及预训练语言模型的适配性微调方法。这些研究不仅优化了多跳问答的性能指标，还促进了如HotpotQA、MuSiQue等后续数据集的构建，形成了多跳推理领域的良性发展生态。

数据集最近研究