CF-TriviaQA

github2024-08-30 更新2024-09-03 收录

下载链接：

https://github.com/google-research-datasets/cf_triviaqa

下载链接

链接失效反馈

官方服务：

资源简介：

CF-TriviaQA是一个由TriviaQA数据集使用幻觉增强朗诵（HAR）方法生成的反事实开放式问答数据集。该数据集旨在通过提供高质量、可归因和反事实的示例来改进大型语言模型（LLM）中的属性。

CF-TriviaQA is a counterfactual open-domain question answering dataset generated from the TriviaQA dataset using the Hallucination-Augmented Recitation (HAR) method. This dataset aims to improve the attributes of large language models (LLMs) by providing high-quality, attributable, and counterfactual examples.

创建时间：

2024-08-07

原始信息汇总

CF-TriviaQA 数据集

概述

CF-TriviaQA 是一个反事实开放书问答数据集，通过使用幻觉增强复述（HAR）方法从 TriviaQA 数据集生成。该数据集旨在通过提供高质量、可归因和反事实的示例来改进大型语言模型（LLMs）中的归因。

数据集描述

大小: 16,853 个示例
来源: 通过 HAR 从 TriviaQA 生成
格式: JSONL（JSON Lines）

每个条目是一个 JSON 对象，具有以下结构：

json { "question_text": "String containing the question from TriviaQA", "paragraph_text": "String containing the generated counterfactual document", "annotation": { "answer": [ { "paragraph_reference": { "string": "String containing the generated counterfactual answer" } } ] }, "question_id": "String identifier for the question" }

字段:

question_text: 来自 TriviaQA 的原始问题。
paragraph_text: 由 HAR 生成的反事实文档。
annotation.answer[0].paragraph_reference.string: 由 HAR 生成的反事实答案。
question_id: 每个问答对的唯一标识符。

数据集存储在一个名为 har_dataset.jsonl 的 JSONL 文件中，每行代表一个单独的示例。

关键特性

反事实: 所有示例都是反事实的，与原始 TriviaQA 答案冲突。
高归因: 答案基于生成的文档。
多样化的反事实: 包括简单的反事实、时间问题和模糊问题。

生成过程（HAR）

复述生成: 使用 PaLM 2-L 为每个 TriviaQA 问题生成多个文档-答案对。
事实性过滤: 移除事实性生成以确保反事实性。
归因过滤: 确保生成的答案基于生成的文档。

评估

数据集已针对以下方面进行评估：

归因: 0.87 分
反事实性: 0.68 分

（基于使用 T5-11B 模型的 NLI 评估）

影响

使用 CF-TriviaQA 微调的模型在域外问答任务中显示出显著改进，表明增强了文本基础能力。

许可证

该数据集在 Apache 2.0 许可证下发布。

引用

如果您在研究中使用此数据集，请引用：

@misc{köksal2023hallucinationaugmentedrecitationslanguage, title={Hallucination Augmented Recitations for Language Models}, author={Abdullatif Köksal and Renat Aksitov and Chung-Ching Chang}, year={2023}, eprint={2311.07424}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07424}, }

搜集汇总

数据集介绍

构建方式

CF-TriviaQA数据集通过Hallucination Augmented Recitations（HAR）方法从TriviaQA数据集中生成，旨在提供高质量、可归因且具有反事实性质的示例，以增强大型语言模型（LLMs）的归因能力。具体构建过程包括使用PaLM 2-L生成多个文档-答案对，随后通过事实性过滤确保反事实性，并通过归因过滤确保生成的答案与文档内容相符。

使用方法

CF-TriviaQA数据集以JSONL格式存储，每行代表一个单独的示例。使用时，用户可以通过读取`har_dataset.jsonl`文件，解析每个JSON对象中的字段，包括问题文本、生成的反事实文档、反事实答案及其唯一标识符。该数据集适用于微调语言模型，特别是在提升文本基础能力和跨领域问答任务中表现显著。

背景与挑战

背景概述

CF-TriviaQA数据集是由Abdullatif Köksal、Renat Aksitov和Chung-Ching Chang于2023年创建的，旨在通过Hallucination Augmented Recitations (HAR)方法改进大型语言模型（LLMs）中的归属问题。该数据集基于TriviaQA生成，包含16,853个反事实问答对，旨在提供高质量、可归属且反事实的示例。CF-TriviaQA的开发不仅增强了模型在域外问答任务中的表现，还显著提升了文本基础能力，对自然语言处理领域具有重要影响。

当前挑战

CF-TriviaQA数据集在构建过程中面临多项挑战。首先，确保生成的反事实文档与原始TriviaQA答案冲突，同时保持高归属性，这一过程需要精细的事实过滤和归属过滤。其次，数据集的多样性，包括简单反事实、时间问题和模糊问题，增加了生成和评估的复杂性。最后，尽管数据集在归属性和反事实性方面表现优异，但其应用在实际模型微调中仍需进一步验证和优化，以确保在不同任务中的广泛适用性。

常用场景

经典使用场景

在自然语言处理领域，CF-TriviaQA数据集的经典使用场景主要集中在增强大型语言模型（LLMs）的文本归属能力。通过提供高质量、可归属且具有反事实性质的问答对，该数据集能够显著提升模型在开放域问答任务中的表现。研究人员利用CF-TriviaQA进行模型微调，以期在处理复杂和多变的问答情境时，模型能够更好地理解并归属文本信息，从而提高其泛化能力和准确性。

解决学术问题

CF-TriviaQA数据集在学术研究中解决了大型语言模型在文本归属和反事实推理方面的常见问题。通过提供具有高归属性和反事实性质的问答对，该数据集帮助研究人员评估和改进模型在处理复杂问答任务时的表现。这不仅提升了模型的文本归属能力，还增强了其在开放域问答任务中的泛化能力，为自然语言处理领域的研究提供了新的视角和工具。

实际应用

在实际应用中，CF-TriviaQA数据集主要用于提升问答系统的性能和可靠性。通过微调基于该数据集的模型，问答系统能够在处理用户查询时提供更准确、更具归属性的答案。例如，在智能客服、教育辅助和信息检索等领域，这些改进能够显著提升用户体验，确保系统在面对复杂和多变的查询时仍能保持高效和准确。

数据集最近研究