five

morph-labs/MiniMuSiQue

收藏
Hugging Face2023-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/morph-labs/MiniMuSiQue
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en license: apache-2.0 --- # MiniMuSiQue by Morph Labs ![banner](https://pbs.twimg.com/profile_images/1669255916980686848/mTW-mxbC_400x400.jpg) **https://morph.so/blog/self-teaching/** We describe two evaluation datasets that we have derived from the MuSiQue multi-hop question-answering dataset, called MiniMuSiQue-hard (filtered for questions answerable by GPT-4 but not GPT-3.5, where performance significantly degrades if the first pivot document is removed) and MiniMuSiQue-easy (a larger dataset of convoluted off-distribution single-hop question-answer pairs). ## Table of Contents 1. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#dataset-description" target="_blank">Dataset Description</a>** 2. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#uses" target="_blank">Uses</a>** 3. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#contact" target="_blank">Contact</a>** 4. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#blogpost-and-citation" target="_blank">Blogpost and Citation</a>** ### Dataset Description We refined the MuSiQue dataset to focus on questions that demand complex multi-hop reasoning, by selecting questions which (1) GPT-4 could answer but GPT-3.5 could not, and which (2) were not answerable without the context relevant to the first reasoning step (the "first hop pivot document") for each question. Specifically, we selected 768 random examples from the MuSiQue training set, ranked them based on a combined score of difficulty (measured by the difference in ROUGE-L recall between GPT-4 and GPT-3.5) and the necessity for multi-hop reasoning (assessed by the change in ROUGE-L recall when the first hop pivot document was removed). We refer to the top-ranked 128 examples as MiniMuSiQue, and obtain MiniMuSiQue-hard by associating the original difficult MuSiQue multi-hop question-answer pair to each example. To additionally test off-distribution single-hop factual recall, for each example we synthesized convoluted off-distribution single-hop question-answer pairs for up to five entities per document in MiniMuSiQue, resulting in the much larger single-hop dataset MiniMuSiQue-easy. Each MiniMuSiQue example consists of twenty documents sampled from different Wikipedia articles, to which we associate a hard MuSiQue multi-hop reasoning question for MiniMuSiQue, and many single-hop questions for MiniMuSiQue-easy. - **Developed by:** **<a href="https://www.morph.so" target="_blank">Morph Labs</a>** - **Refined from:** **<a href="https://arxiv.org/abs/2108.00573" target="_blank">MuSiQue</a>** - **Language(s):** English - **License:** **<a href="https://www.apache.org/licenses/LICENSE-2.0" target="_blank">Apache 2.0</a>** ## Uses A particularly challenging form of question for models historically has been multi-hop questions, which require a series of interconnected reasoning steps over multiple documents. However, creating multi-hop questions that truly necessitate knowledge-based reasoning is challenging. For instance, early benchmarks like HotpotQA were found to be largely solvable through shortcuts. The construction of questions and corresponding contexts that avoid such shortcuts, and verifying their effectiveness, requires a comprehensive dataset development process. The MuSiQue dataset addresses many weaknesses of prior work and contains difficult multi-hop questions less susceptible to shortcuts. We derive MiniMuSiQue from the original MuSiQue to better assess model capabilities to answer multi-hop questions that truly necessitate knowledge-based reasoning. ## Contact hello@morph.so ## Blogpost and Citation **https://morph.so/blog/self-teaching/** @misc{MiniMuSiQue, title={MiniMuSiQue}, author={Morph Labs, Jesse Michael Han, Eric Yu, Bentley Long, Pranav Mital, Brando Miranda}, year={2023}}

--- language: - en license: apache-2.0 --- # Morph Labs 研发的 MiniMuSiQue 数据集 ![banner](https://pbs.twimg.com/profile_images/1669255916980686848/mTW-mxbC_400x400.jpg) **https://morph.so/blog/self-teaching/** 我们基于MuSiQue多跳问答(multi-hop question-answering)数据集构建了两款评测数据集,分别命名为MiniMuSiQue-hard(筛选出仅可被GPT-4解答、而GPT-3.5无法作答的问题——若移除首个枢纽文档,模型性能会显著下降)与MiniMuSiQue-easy(规模更大的复杂分布外单跳问答对数据集)。 ## 目录 1. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#dataset-description" target="_blank">数据集描述</a>** 2. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#uses" target="_blank">数据集用途</a>** 3. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#contact" target="_blank">联系方式</a>** 4. **<a href="https://huggingface.co/morph-labs/MiniMuSiQue#blogpost-and-citation" target="_blank">博客与引用</a>** ### 数据集描述 我们对MuSiQue数据集进行了精炼,聚焦于需要复杂多跳推理(multi-hop reasoning)的问题,筛选标准为:(1) 仅可被GPT-4解答,而GPT-3.5无法作答;(2) 缺失首个推理步骤相关的上下文(即“首跳枢纽文档”)时便无法解答的问题。具体而言,我们从MuSiQue训练集中随机选取768条样本,基于两项指标的综合得分进行排序:其一为难度得分(通过GPT-4与GPT-3.5的ROUGE-L召回率差值衡量);其二为多跳推理必要性得分(通过移除首跳枢纽文档后ROUGE-L召回率的变化量评估)。我们将排名前128的样本命名为MiniMuSiQue,并将每条样本与原始的高难度MuSiQue多跳问答对绑定,由此得到MiniMuSiQue-hard。 为额外测试分布外单跳事实性召回能力,我们针对MiniMuSiQue中每个文档最多5个实体,合成了复杂的分布外单跳问答对,由此得到规模更大的单跳数据集MiniMuSiQue-easy。每条MiniMuSiQue样本包含从不同维基百科文章中采样的20篇文档,其中MiniMuSiQue部分绑定了一道高难度MuSiQue多跳推理问题,而MiniMuSiQue-easy部分则绑定了多条单跳问题。 - **研发方**:**<a href="https://www.morph.so" target="_blank">Morph Labs</a>** - **衍生自**:**<a href="https://arxiv.org/abs/2108.00573" target="_blank">MuSiQue</a>** - **语言**:英语 - **许可证**:**<a href="https://www.apache.org/licenses/LICENSE-2.0" target="_blank">Apache 2.0</a>** ## 数据集用途 长期以来,多跳问题对模型而言都是极具挑战性的题型——这类问题需要基于多篇文档执行一系列相互关联的推理步骤。然而,构建真正需要基于知识推理的多跳问题并非易事。例如,早期的HotpotQA等基准测试集被发现大多可通过捷径技巧解答。构建能够规避此类捷径的问题与对应上下文,并验证其有效性,需要一套完整的数据集开发流程。 MuSiQue数据集弥补了此前诸多工作的缺陷,包含了更难被捷径技巧破解的高难度多跳问题。我们从原始MuSiQue数据集衍生出MiniMuSiQue,旨在更精准地评估模型解答真正需要知识推理的多跳问题的能力。 ## 联系方式 hello@morph.so ## 博客与引用 **https://morph.so/blog/self-teaching/** bibtex @misc{MiniMuSiQue, title={MiniMuSiQue}, author={Morph Labs, Jesse Michael Han, Eric Yu, Bentley Long, Pranav Mital, Brando Miranda}, year={2023}}
提供机构:
morph-labs
原始信息汇总

MiniMuSiQue by Morph Labs

数据集描述

我们通过对MuSiQue多跳问答数据集进行筛选,得到了两个评估数据集:MiniMuSiQue-hard和MiniMuSiQue-easy。MiniMuSiQue-hard包含的问题是GPT-4能够回答但GPT-3.5不能回答的,且在移除第一个推理步骤的相关上下文后无法回答的问题。MiniMuSiQue-easy是一个更大的数据集,包含复杂的、非分布式的单跳问答对。

具体来说,我们从MuSiQue训练集中随机选择了768个样本,并根据难度(GPT-4和GPT-3.5之间的ROUGE-L召回率差异)和多跳推理的必要性(移除第一个跳跃文档后的ROUGE-L召回率变化)进行排名。我们将排名前128的样本称为MiniMuSiQue,并通过关联原始的MuSiQue多跳问答对来获得MiniMuSiQue-hard。为了进一步测试非分布式单跳事实回忆,我们为MiniMuSiQue中的每个文档合成了复杂的非分布式单跳问答对,最多为每个文档的五个实体,从而得到了更大的单跳数据集MiniMuSiQue-easy。每个MiniMuSiQue样本包含从不同维基百科文章中抽取的二十个文档,并关联一个MuSiQue多跳推理问题用于MiniMuSiQue,以及许多单跳问题用于MiniMuSiQue-easy。

  • 开发者: Morph Labs
  • 源自: MuSiQue
  • 语言: 英语
  • 许可证: Apache 2.0

用途

多跳问题对模型来说一直是一个挑战,它需要在一系列相互关联的推理步骤中跨越多个文档。然而,创建真正需要基于知识推理的多跳问题是具有挑战性的。例如,早期的基准测试如HotpotQA被发现主要可以通过捷径解决。构建避免此类捷径的问题及其相应上下文,并验证其有效性,需要一个全面的数据集开发过程。MuSiQue数据集解决了先前工作的许多弱点,并包含不易受捷径影响的多跳问题。我们从原始的MuSiQue中派生出MiniMuSiQue,以更好地评估模型回答真正需要基于知识推理的多跳问题的能力。

搜集汇总
数据集介绍
main_image_url
构建方式
MiniMuSiQue数据集由Morph Labs团队开发,基于MuSiQue多跳问答数据集进行精炼。该数据集专注于挑选出需要复杂多跳推理的问题,这些问题不仅GPT-4能够回答而GPT-3.5不能,而且若去除第一个推理步骤的上下文(即“第一跳关键文档”),则无法回答。通过从MuSiQue训练集中随机选取768个示例,并根据难度和必要性进行评分排序,最终确定了128个难度最高的示例作为MiniMuSiQue,并形成了其困难版本MiniMuSiQue-hard。同时,为了测试非分布内的单跳事实回忆,为每个示例合成了多个单跳问题,形成了更大的单跳数据集MiniMuSiQue-easy。每个示例包含来自不同维基百科文章的20个文档,并为MiniMuSiQue关联了一个困难的多跳推理问题,为MiniMuSiQue-easy关联了许多单跳问题。
特点
MiniMuSiQue数据集的特点在于其精心设计的多跳推理问题和避免捷径的上下文构建,旨在更好地评估模型在解答真正需要基于知识推理的多跳问题方面的能力。其包含了两个子数据集,MiniMuSiQue-hard专注于难度较高的多跳问题,而MiniMuSiQue-easy则提供了大量的单跳问题,用以测试模型在非分布内的事实回忆能力。所有数据均以英文呈现,并遵循Apache 2.0许可证。
使用方法
使用MiniMuSiQue数据集时,研究者可以将其作为评估模型多跳问答能力的基准。数据集的构建使得模型必须进行真正的知识推理,而非依赖于捷径。用户可以通过访问提供的链接获取数据集,并根据Apache 2.0许可证的规定进行使用和分享。此外,Morph Labs团队还提供了相关的博客文章和引用,以帮助用户更好地理解和引用该数据集。
背景与挑战
背景概述
MiniMuSiQue数据集,由Morph Labs团队开发,旨在对MuSiQue多跳问答数据集进行优化,专注于需要复杂多跳推理的问题。该数据集的创建,是为了更精确地评估模型在处理真实世界中的多跳问答任务时的性能。其选取了MuSiQue训练集中的768个随机示例,并根据难度和必要性进行了排序,最终形成了128个最具挑战性的示例,称为MiniMuSiQue。此外,该团队还构建了一个更大的单跳数据集MiniMuSiQue-easy,以测试模型在非分布上的单跳事实回忆能力。自2023年起,MiniMuSiQue数据集以其独特的构造和评估方法,对自然语言处理领域产生了显著影响,尤其是在多跳推理的研究与应用方面。
当前挑战
在构建MiniMuSiQue数据集的过程中,研究人员面临了两大挑战:一是如何设计出真正需要知识推理的多跳问题,避免早期基准测试中存在的捷径解决方法;二是如何确保所选问题及其对应上下文的有效性,避免因捷径而影响模型能力的真实评估。此外,MiniMuSiQue数据集的创建也面临着如何平衡难度与实用性的问题,以确保数据集既能提供足够的挑战性,又能为模型训练提供有效的反馈。
常用场景
经典使用场景
在人工智能领域,尤其是自然语言处理中,多跳推理问题一直是评估模型能力的重要指标。MiniMuSiQue数据集便是在此背景下应运而生,其经典的使用场景在于为模型提供一系列精心构造的、需要基于知识的多跳推理问题,以此检验模型在处理复杂逻辑推理任务时的表现。
实际应用
在实际应用中,MiniMuSiQue数据集可用于训练和评估多跳问答系统,例如在知识图谱查询、信息检索以及复杂决策支持系统中,提升系统处理复杂查询的能力,进而服务于教育、科研和商业等多个领域。
衍生相关工作
基于MiniMuSiQue数据集,研究者们进一步开展了相关工作,如合成偏离分布的单跳问题来测试模型的记忆能力,这些衍生工作不仅扩展了数据集的适用范围,也推动了多跳推理技术在人工智能领域的深入研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作