druid

Hugging Face2025-01-02 更新2025-01-03 收录

信息检索

自动化验证

数据链接：

https://huggingface.co/datasets/copenlu/druid 数据链接链接失效反馈

官方服务：

资源简介：

DRUID数据集包含真实世界的（查询，上下文）对，旨在促进对真实世界RAG（检索增强生成）场景中上下文使用和失败的研究。数据集基于自动化声明验证的原型任务，其中自动化检索真实世界的证据至关重要。因此，有时也将“查询”称为“声明”，将“上下文”称为“证据”。数据集包含两个版本：DRUID和DRUID+，其中DRUID是DRUID+的一个高质量子集，手动标注了证据的相关性和立场。数据集的结构包括多个字段，如唯一标识符、声明、证据、证据来源等。数据集的创建过程包括声明收集、证据收集以及相关性和立场标注。

The DRUID dataset comprises real-world (query, context) pairs, developed to advance research on context utilization and failure patterns in real-world Retrieval-Augmented Generation (RAG) scenarios. The dataset is grounded on a prototypical task of automated claim verification, where automated retrieval of real-world evidence is critically important. Accordingly, the terms "query" and "context" are sometimes referred to as "claim" and "evidence", respectively. The dataset offers two variants: DRUID and DRUID+. DRUID is a high-quality subset of DRUID+, which has been manually annotated for evidence relevance and stance. The dataset structure includes multiple fields such as unique identifier, claim, evidence, evidence source, and others. The dataset creation process encompasses claim collection, evidence collection, as well as relevance and stance annotation.

创建时间：

2024-12-22

原始信息汇总

DRUID 数据集概述

数据集基本信息

许可证: MIT
语言: 英语 (en)
数据集名称: DRUID (Dataset of Retrieved Unreliable, Insufficient and Difficult-to-understand context)
数据集配置:
- DRUID: 包含高质量的子集，手动标注了证据相关性和立场。
- DRUID+: 包含更多的证据片段，未手动标注。

数据集描述

DRUID 数据集包含真实世界的 (查询, 上下文) 对，旨在促进对真实世界 RAG 场景中上下文使用和失败的研究。数据集基于自动声明验证的原型任务，自动检索真实世界的证据至关重要。因此，有时也将“查询”称为“声明”，将“上下文”称为“证据”。

数据集用途

评估模型对上下文的使用。
测试自动声明验证方法。

数据集结构

数据集包含以下列：

id: 每个数据样本的唯一标识符，也表示声明来源。
claim_id: 每个声明的唯一标识符，一个声明可能对应多个样本。
claim_source: 从中检索到样本声明的事实检查站点文章。
claim: 关于世界的声明/查询。
claimant: 声明背后的人/组织。
claim_date: 声明在事实检查站点发布的日期。
evidence_source: 从中检索到证据的网页。
evidence: 用于评估给定声明真实性的证据/上下文。
evidence_data: 检索到证据的网页发布日期。
factcheck_verdict: 关于声明的事实检查结论，不一定与证据立场一致。
is_gold: 证据是否从相应的事实检查站点检索或“从野外检索”。
relevant: 证据是否与给定声明相关，已在 DRUID 样本中手动标注。
evidence_stance: 证据的立场，即是否支持声明、不足支持、不足中立、不足矛盾、不足反驳或反驳，已在 DRUID 样本中手动标注。

数据集创建

声明收集

使用 Googles Factcheck API 收集由事实检查员验证的声明，仅收集英语声明。声明来自 7 个不同的事实检查来源，涵盖科学、政治、北爱尔兰、斯里兰卡、美国、印度、法国等。

证据收集

对于 DRUID 和 DRUID+ 中的每个声明，分别检索最多 5 和 40 个证据片段。首先从原始事实检查站点检索黄金标准证据文档，然后使用自动检索方法检索其余证据片段。

引用

@misc{druid, title={A Reality Check on Context Utilisation for Retrieval-Augmented Generation}, author={Lovisa Hagström and Sara Vera Marjanović and Haeun Yu and Arnav Arora and Christina Lioma and Maria Maistro and Pepa Atanasova and Isabelle Augenstein}, year={2024}, eprint={2412.17031}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.17031}, }

搜集汇总

数据集介绍

构建方式

DRUID数据集的构建过程基于自动化检索与人工标注相结合的方法。首先，通过Google的Factcheck API从七个多样化的事实核查来源中收集经过人工核查的英文声明。随后，针对每个声明，从原始事实核查网站中检索黄金标准证据文档，并通过Google和Bing搜索引擎获取额外的证据片段。这些证据片段经过Cohere重排模型进行排序，最终选取排名靠前的段落作为数据集的一部分。为确保证据的相关性和立场准确性，数据集中的证据片段通过Prolific和Potato平台进行众包标注，每个证据片段均经过双重标注，以确保其与声明的相关性和立场。

特点

DRUID数据集的特点在于其专注于真实世界中的检索增强生成（RAG）场景，特别是自动化声明验证任务。数据集包含高质量的（查询，上下文）对，这些对经过手动标注，确保证据的相关性和立场准确性。数据集分为DRUID和DRUID+两个版本，其中DRUID是DRUID+的高质量子集，包含经过手动标注的证据相关性和立场信息。数据集中的每个样本均包含唯一的标识符、声明来源、声明内容、证据来源、证据内容、事实核查结果等详细信息，为研究上下文使用和失败提供了丰富的资源。

使用方法

DRUID数据集的主要用途是评估模型在上下文使用中的表现，并测试自动化声明验证方法。研究人员可以通过该数据集分析模型在处理真实世界证据时的能力，特别是在证据相关性和立场判断方面的表现。数据集的结构清晰，包含多个字段，如声明、证据、事实核查结果等，便于研究人员进行深入分析。使用该数据集时，建议首先了解其构建过程和标注标准，以确保分析结果的准确性和可靠性。此外，数据集的使用应遵循其许可证要求，并引用相关论文以尊重作者的贡献。

背景与挑战

背景概述

DRUID数据集由Lovisa Hagström等研究人员于2024年创建，旨在研究真实世界检索增强生成（RAG）场景中的上下文使用与失败问题。该数据集基于自动化声明验证的原型任务，强调真实世界证据的自动检索。数据集包含来自多个事实核查来源的声明及其相关证据，涵盖了科学、政治等多个领域。DRUID的构建不仅依赖于Google Factcheck API，还通过自动化检索方法从Google和Bing搜索引擎中获取证据，并使用Cohere重排模型进行筛选。该数据集为评估模型上下文使用和自动化声明验证方法提供了重要资源，推动了自然语言处理领域的研究进展。

当前挑战

DRUID数据集在构建过程中面临多重挑战。首先，自动化声明验证任务本身具有复杂性，尤其是在处理多样化的声明和证据时，如何确保证据的相关性和立场准确性成为核心问题。其次，证据的自动化检索与重排过程中，搜索引擎返回的结果可能存在噪声，导致证据质量参差不齐。此外，人工标注证据的相关性和立场需要大量时间和资源，且标注一致性难以保证。这些挑战不仅影响了数据集的构建效率，也对后续模型评估的可靠性提出了更高要求。

常用场景

经典使用场景

DRUID数据集在检索增强生成（RAG）领域的研究中具有重要地位，特别是在自动化声明验证任务中。该数据集通过提供真实的查询与上下文对，帮助研究者深入分析上下文的使用及其在现实场景中的失败情况。其经典使用场景包括评估模型在复杂上下文中的表现，以及测试自动化声明验证方法的有效性。

衍生相关工作

DRUID数据集衍生了一系列相关研究工作，特别是在检索增强生成和自动化声明验证领域。例如，基于该数据集的研究提出了改进的上下文检索算法，以及更精确的声明验证模型。此外，该数据集还启发了对多语言和多领域声明验证系统的开发，进一步扩展了其应用范围。

数据集最近研究