CF-TriviaQA
收藏CF-TriviaQA 数据集
概述
CF-TriviaQA 是一个反事实开放书问答数据集,通过使用幻觉增强复述(HAR)方法从 TriviaQA 数据集生成。该数据集旨在通过提供高质量、可归因和反事实的示例来改进大型语言模型(LLMs)中的归因。
数据集描述
- 大小: 16,853 个示例
- 来源: 通过 HAR 从 TriviaQA 生成
- 格式: JSONL(JSON Lines)
每个条目是一个 JSON 对象,具有以下结构:
json { "question_text": "String containing the question from TriviaQA", "paragraph_text": "String containing the generated counterfactual document", "annotation": { "answer": [ { "paragraph_reference": { "string": "String containing the generated counterfactual answer" } } ] }, "question_id": "String identifier for the question" }
字段:
question_text: 来自 TriviaQA 的原始问题。paragraph_text: 由 HAR 生成的反事实文档。annotation.answer[0].paragraph_reference.string: 由 HAR 生成的反事实答案。question_id: 每个问答对的唯一标识符。
数据集存储在一个名为 har_dataset.jsonl 的 JSONL 文件中,每行代表一个单独的示例。
关键特性
- 反事实: 所有示例都是反事实的,与原始 TriviaQA 答案冲突。
- 高归因: 答案基于生成的文档。
- 多样化的反事实: 包括简单的反事实、时间问题和模糊问题。
生成过程(HAR)
- 复述生成: 使用 PaLM 2-L 为每个 TriviaQA 问题生成多个文档-答案对。
- 事实性过滤: 移除事实性生成以确保反事实性。
- 归因过滤: 确保生成的答案基于生成的文档。
评估
数据集已针对以下方面进行评估:
- 归因: 0.87 分
- 反事实性: 0.68 分
(基于使用 T5-11B 模型的 NLI 评估)
影响
使用 CF-TriviaQA 微调的模型在域外问答任务中显示出显著改进,表明增强了文本基础能力。
许可证
该数据集在 Apache 2.0 许可证下发布。
引用
如果您在研究中使用此数据集,请引用:
@misc{köksal2023hallucinationaugmentedrecitationslanguage, title={Hallucination Augmented Recitations for Language Models}, author={Abdullatif Köksal and Renat Aksitov and Chung-Ching Chang}, year={2023}, eprint={2311.07424}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2311.07424}, }




