StreamingQA

Name: StreamingQA
Creator: DeepMind, London, UK
Published: 2022-05-23 23:33:41
License: 暂无描述

arXiv2022-05-23 更新2024-06-21 收录

下载链接：

https://github.com/deepmind/streamingqa

下载链接

链接失效反馈

官方服务：

资源简介：

StreamingQA是由DeepMind创建的大规模数据集，旨在研究问答模型如何适应不断变化的知识。该数据集包含10万个问题，这些问题是基于2007年至2020年间的时间戳新闻文章。数据集通过季度评估模型，以观察模型在阅读新文章时的适应性。StreamingQA特别关注于模型对频繁命名实体问题的处理能力，并展示了通过无监督微调或访问检索来提高问答性能的潜力。此外，数据集还强调了在动态世界中，模型需要不断更新以保持与最新信息的同步，从而提供更真实的评估环境。

StreamingQA is a large-scale dataset developed by DeepMind for researching how question answering (QA) models adapt to constantly evolving knowledge. The dataset includes 100,000 questions grounded in timestamped news articles spanning from 2007 to 2020. It enables quarterly evaluations of models to observe their adaptability when consuming newly published articles. StreamingQA specifically focuses on models' ability to handle questions involving frequently occurring named entities, and demonstrates the potential to improve QA performance through unsupervised fine-tuning or access to retrieval systems. Furthermore, the dataset highlights the necessity for continuous model updates to stay aligned with the latest information in a dynamic world, thereby creating a more realistic evaluation environment.

提供机构：

DeepMind, London, UK

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

在动态知识演化背景下，StreamingQA数据集的构建旨在模拟真实世界知识随时间更新的场景。该数据集以2007年至2020年间发布的约1100万篇时间戳新闻文章作为知识语料库，通过结合人工撰写与基于大语言模型自动生成两种方式，创建了具有明确时间元数据的问题。构建过程中，首先依据文章发布日期生成合理的问题日期，确保时间一致性；随后采用少样本提示技术从命名实体、日期及短语中抽取答案并生成问题，同时由母语为英语的标注者根据指定文章和日期撰写问题。所有问题均经过自动与人工双重过滤，以消除低质量或歧义内容，并收集了多个参考答案以确保数据可靠性。最终形成了包含约28,000个生成问题和8,800个人工撰写问题的评估集，以及用于训练和验证的额外问题集合。

特点

StreamingQA数据集的核心特点在于其严格的时间元数据标注，为每个问题标注了提问日期，并为知识文章标注了发布日期，从而支持对模型知识适应与遗忘能力的系统性评估。数据集涵盖了从近期事件到历史背景的广泛时间范围，特别设计了近期子集与过去子集，以分别考察模型对新知识的适应能力与对历史知识的保持能力。此外，问题中包含了绝对或相对时间表述，增强了时间推理的复杂性。与基于静态知识库的传统QA数据集相比，StreamingQA依托新闻领域语料，呈现出信息冗余、噪声及潜在冲突等更贴近现实的挑战，为开放域问答研究提供了更为动态和真实的评估环境。

使用方法

StreamingQA数据集主要用于评估问答模型在知识随时间演化背景下的适应能力。研究通常采用流式任务设置，将问题按季度划分，并确保模型仅能访问截至该季度已发布的知识文章进行回答。通过比较参数化模型与半参数化模型在不同时间滞后场景下的表现，可以深入分析模型对新知识的整合效率以及对旧知识的遗忘程度。具体而言，参数化模型可通过增量微调更新，而半参数化模型则通过向检索空间添加新文章实现快速适应。评估指标包括F1分数和精确匹配率，并可根据问题子集、实体频率及时间表述类型进行细粒度分析，从而揭示不同适应策略的优势与局限，推动时序推理与持续学习方向的研究。

背景与挑战

背景概述

在自然语言处理领域，随着世界知识的动态演变，传统问答模型往往依赖于静态知识快照，难以适应不断更新的信息。为应对这一挑战，DeepMind研究团队于2022年推出了StreamingQA数据集，旨在评估半参数化问答模型及其底层参数化语言模型如何随时间适应新知识。该数据集基于2007年至2020年间的时间戳新闻文章，包含人工撰写与自动生成的问题，并严格标注问题提出日期与文章发布日期，从而模拟真实世界中知识流的动态特性。其核心研究问题聚焦于模型在增量知识注入下的适应能力与遗忘现象，为时间敏感的问答系统研究提供了重要基准。

当前挑战

StreamingQA数据集致力于解决动态知识环境下的问答任务挑战，其核心在于模型如何适应随时间演变的新信息，同时避免对历史知识的灾难性遗忘。构建过程中面临多重挑战：首先，需确保问题与知识的时间对齐，即问题日期与证据文档发布日期的一致性，以支持时间推理；其次，新闻领域的信息冗余、噪声及潜在冲突增加了开放书检索的复杂性；此外，自动生成问题时需保证问题在全局知识库中的特异性，避免模糊或琐碎查询；最后，数据质量控制涉及毒性内容过滤与人工标注的可靠性，需平衡内容安全与数据代表性。

常用场景

经典使用场景

在动态知识演化领域，StreamingQA数据集为评估问答模型随时间适应新知识的能力提供了基准。该数据集通过结合时间戳新闻文章和人类撰写或生成的带日期问题，模拟了现实世界中知识不断更新的场景。其经典使用场景包括在流式设置下，让模型按季度读取未见过的新闻文章，并回答关于近期和过去事件的问题，从而系统研究参数化和半参数化模型在知识更新中的表现。

衍生相关工作

StreamingQA的推出催生了多项关于时序问答和知识适应的研究。基于该数据集，学者们深入探讨了参数化与半参数化适应机制的互补性，例如针对高频命名实体的问题，参数化更新更为有效，而半参数化方法则在低频知识处理上表现更优。相关工作还扩展至时间感知检索模型的优化、持续学习算法的改进，以及针对新闻领域冲突信息处理的策略研究，进一步推动了动态知识建模领域的发展。

数据集最近研究