siyue/SituatedQA

Name: siyue/SituatedQA
Creator: siyue
Published: 2024-04-03 08:24:54
License: 暂无描述

Hugging Face2024-04-03 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/siyue/SituatedQA

下载链接

链接失效反馈

官方服务：

资源简介：

SituatedQA是一个上下文依赖的问答数据集，来源于多个开放检索的问答数据集，包括Natural Questions、WebQuestions、TyDi-QA和MS-MARCO。所有数据均为英文，并且问题可以通过维基百科文档回答。数据集包含问题-上下文-答案三元组，分为Temp和Geo两个子集，分别有不同的训练、开发和测试集数量。

SituatedQA is a context-dependent question answering (QA) dataset derived from multiple open-retrieval QA datasets, including Natural Questions, WebQuestions, TyDi-QA, and MS-MARCO. All data is in English, and all questions can be answered using Wikipedia documents. The dataset comprises question-context-answer triples and is divided into two subsets: Temp and Geo. Each subset has distinct quantities for its training, development, and test sets.

提供机构：

siyue

原始信息汇总

SituatedQA 数据集概述

基本信息

许可证: MIT
任务类别: 问答
语言: 英语
数据集名称: SituatedQA
大小类别: 10K<n<100K

数据集描述

SituatedQA 是一个依赖上下文的问答数据集，来源于开放检索问答数据集，包括 Natural Questions, WebQuestions, TyDi-QA 和 MS-MARCO。所有数据集均为英语，问题答案可由维基百科文档提供。

数据结构

问题-上下文-答案三元组:
- Temp: 训练集 6009 个，验证集 3423 个，测试集 2795 个
- Geo: 训练集 3548 个，验证集 1398 个，测试集 505 个

使用示例

python from datasets import load_dataset dataset = load_dataset("siyue/SituatedQA","temp","train")

数据示例

python { "question": "where will the next summer and winter olympics be held", "id": "2098168902147822379", "edited_question": "where will the next summer and winter olympics be held as of 2021", "date": "2021", "date_type": "sampled_year", "answer": ["Japan and China"], "any_answer": ["Brazil and S. Korea", "Japan and China"] }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，情境感知问答任务要求模型理解超越纯文本的上下文信息。SituatedQA数据集的构建源于对现有开放检索问答资源的整合与扩展，其基础数据选自Natural Questions、WebQuestions、TyDi-QA及MS-MARCO等知名英文维基百科问答数据集。通过精心设计的时间与地理维度标注，原始问题被赋予具体的情境约束，例如特定年份或地点，从而转化为依赖外部语境的新型问答对。这一过程不仅保留了原数据的高质量特性，还引入了动态的情境变量，为模型理解现实世界中的时效性与地域性知识提供了结构化支撑。

特点

该数据集的核心特征在于其双重情境维度的系统性组织，涵盖时间与地理两大类别。时间维度涉及从原始数据中提取或模拟的特定年份标注，地理维度则聚焦于位置相关的情境化问题。每个样本均包含原始问题、情境化修订问题、对应日期或地理信息、标准答案及备选答案集合，形成了多层次的问答结构。数据规模适中，训练、开发与测试集划分清晰，确保了评估的严谨性。这种设计使得SituatedQA能够精准考察模型在融合外部世界知识时的推理能力，尤其擅长揭示模型对情境敏感信息的处理局限。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库便捷加载，指定所需的情境维度与数据分割。例如，调用load_dataset函数并传入数据集标识符、维度参数及分割名称，即可获得结构化的数据对象。每个样本以字典形式呈现，包含问题标识、原始问题、情境化问题、日期信息、答案列表等关键字段。这种接口设计支持灵活的数据遍历与分析，便于构建情境感知问答模型或进行细粒度评估。数据集的标准化格式确保了与主流自然语言处理框架的兼容性，为探索上下文依赖的问答机制提供了可靠实验基础。

背景与挑战

背景概述

在自然语言处理领域，上下文依赖的问答系统一直是研究的核心议题，旨在使机器能够理解并回应与特定时空背景紧密相关的问题。SituatedQA数据集由Michael J.Q. Zhang和Eunsol Choi等人于2021年创建，基于开放检索式问答数据源如Natural Questions和WebQuestions构建而成。该数据集专注于融入超语言学上下文，即时间与地理维度，以模拟真实世界中的动态信息需求，推动了问答系统向更细粒度情境化理解的发展，对提升人工智能在复杂环境下的应用能力具有显著影响力。

当前挑战

SituatedQA数据集所解决的领域问题在于上下文依赖问答，其核心挑战是如何有效整合时间与地理等外部语境信息，以应对答案随情境变化而产生的动态性，这要求模型具备强大的多维度推理与泛化能力。在构建过程中，研究人员面临从异构数据源中提取并标注高质量问题-上下文-答案三元组的困难，需确保时间戳与地理位置信息的准确对齐，同时处理数据稀疏性和标注一致性等问题，这些挑战共同制约了数据集在更广泛场景下的适用性与鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，情境感知问答系统正逐渐成为研究热点，SituatedQA数据集为此提供了关键支持。该数据集通过整合时间与地理维度的上下文信息，构建了问题-情境-答案三元组，使得模型能够理解并响应动态变化的世界知识。经典使用场景包括训练和评估上下文依赖的问答模型，特别是在处理涉及时间演变或地理位置差异的复杂查询时，SituatedQA帮助模型学会区分不同情境下的正确答案，从而提升问答系统的适应性和准确性。

实际应用

在实际应用中，SituatedQA数据集为开发智能助手和搜索引擎提供了重要基础。例如，在新闻摘要、旅行信息查询或历史事件分析中，用户问题往往隐含时间或地点前提。基于该数据集训练的模型能够更精准地提供时效性强、地域相关的答案，增强用户体验。此外，它还可用于教育科技领域，帮助学生理解历史事件的时空背景，或辅助企业分析市场趋势的时空演变。

衍生相关工作

围绕SituatedQA数据集，已衍生出多项经典研究工作。这些工作主要集中在改进情境编码机制、设计跨情境迁移学习框架，以及开发多模态情境融合方法上。部分研究探索了如何将时间与地理信息嵌入预训练语言模型，以增强其动态知识更新能力；另一些则利用该数据集构建了更鲁棒的评估协议，推动了开放领域问答系统向更智能、更适应现实世界复杂性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集