Pinocchio Dataset

github2024-03-13 更新2024-05-31 收录

下载链接：

https://github.com/THU-BPM/Pinocchio

下载链接

链接失效反馈

官方服务：

资源简介：

Pinocchio contains 20K diverse factual questions that span different sources, timelines, domains, regions, and languages.

Pinocchio数据集包含2万个多样化的事实性问题，覆盖了不同来源、时间跨度、领域、地理区域及语言类型。

创建时间：

2024-03-13

原始信息汇总

Pinocchio Dataset概述

数据集目的

Pinocchio数据集旨在探索大型语言模型（LLMs）中事实知识的范围和程度。该数据集包含20,000个多样化的实际问题，覆盖不同的来源、时间线、领域、地区和语言。

数据集内容

数据集详细分为以下几个领域：

Multifaceted: 包含多个事实，来源为FEVER，共有3,332条记录。
Structural: 包含结构化和非结构化事实，来源为FEVEROUS，共有3,944条记录。
Adversarial: 包含通过对抗方法编辑的事实，来源为Symmetric和FM2，共有1,736条记录。
Temporal: 包含随时间变化，来源为VitaminC，共有3,296条记录。
Real-World: 包含在线传播的事实陈述，来源为PolitiFact，共有3,582条记录。
Domain-Specific: 包含来自健康和科学领域的事实，来源为PubHealth和SciFact，共有2,608条记录。
Multi-Lingual: 包含不同语言的事实，来源为XFact和CHEF，共有2,215条记录。

总计，数据集包含21,940条记录，其中事实记录8,713条，非事实记录9,619条，未明确信息3,608条。

数据集文件位置

原始数据集: Pinocchio/dataset.jsonl
精简版数据集: Pinocchio/lite/

引用信息

如需引用此数据集，请使用以下BibTeX条目：

tex @article{HuPino2023, author = {Xuming Hu and Junzhe Chen and Xiaochuan Li and Yufei Guo and Lijie Wen and Philip S. Yu and Zhijiang Guo}, title = {Towards Understanding Factual Knowledge of Large Language Models}, journal = {12th International Conference on Learning Representations, {ICLR} 2024, Messe Wien Exhibition and Congress Center, Vienna Austria May 7th, 2024 to May 11th, 2024}, volume = {2024}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2310.05177}, doi = {10.48550/ARXIV.2310.05177}, eprinttype = {arXiv}, eprint = {2310.05177}, timestamp = {Fri, 20 Oct 2023 12:04:38 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2310-05177.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

Pinocchio数据集的构建旨在探索大型语言模型（LLMs）中事实知识的广度和深度。该数据集包含20,000个多样化的事实性问题，涵盖不同来源、时间线、领域、地区和语言。通过整合来自多个公开数据集（如FEVER、FEVEROUS、VitaminC等）的数据，Pinocchio不仅涵盖了结构化与非结构化的事实，还引入了对抗性编辑、时间变化、多语言等复杂情境。每个问题均经过精心标注，分为事实、非事实和无法确定三类，以确保数据的多样性和挑战性。

使用方法

Pinocchio数据集的使用方法较为灵活，适用于多种研究场景。研究人员可以通过加载`Pinocchio/dataset.jsonl`文件获取完整的原始数据集，或使用`Pinocchio/lite/`目录下的精简版本进行快速实验。数据集中的每个问题均附有详细的标注信息，便于用户进行模型训练、评估和对比分析。通过该数据集，研究人员可以深入探讨LLMs在事实知识获取、推理、更新和对抗性情境下的表现，从而为模型优化提供有力支持。引用该数据集时，建议使用提供的BibTeX条目，以确保学术规范的遵循。

背景与挑战

背景概述

Pinocchio数据集由Xuming Hu等研究人员于2023年创建，旨在深入探索大型语言模型（LLMs）中隐含的事实知识。该数据集包含20,000个多样化的事实性问题，涵盖不同来源、时间线、领域、地区和语言。通过Pinocchio，研究人员试图评估LLMs在组合多个事实、更新时间性知识、推理多段事实、识别细微事实差异以及抵御对抗性示例方面的能力。该数据集的研究成果已在ICLR 2024会议上发表，为理解LLMs的事实知识提供了重要的基准。

当前挑战

Pinocchio数据集面临的挑战主要体现在两个方面。首先，LLMs在生成内容时常常出现不准确或偏离事实的情况，这源于模型在预训练和指令微调过程中获取的事实知识可能存在错误或过时。其次，构建Pinocchio数据集时，研究人员需要从多个来源整合事实性问题，并确保这些问题在时间性、领域和语言上的多样性。此外，对抗性示例的引入增加了数据集的复杂性，要求模型具备更强的鲁棒性和推理能力。这些挑战不仅推动了LLMs在事实知识理解方面的研究，也为未来相关领域的探索提供了新的方向。

常用场景

经典使用场景

Pinocchio数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）的事实知识掌握程度。该数据集包含20,000个多样化的事实性问题，涵盖了不同来源、时间线、领域、地区和语言。研究人员通过Pinocchio数据集，能够深入探究LLMs在事实推理、知识更新、多事实组合以及对抗性示例识别等方面的表现。

解决学术问题

Pinocchio数据集解决了LLMs在事实知识存储和推理中的关键问题。传统知识库（KBs）明确存储事实，而LLMs则隐式地将事实存储于参数中，这可能导致生成内容的不准确或过时。Pinocchio通过设计多样化的测试场景，帮助研究人员理解LLMs在事实知识获取、更新和推理中的局限性，从而推动模型在事实准确性方面的改进。

实际应用

在实际应用中，Pinocchio数据集为开发更可靠的语言模型提供了重要支持。例如，在问答系统和语言生成任务中，模型需要准确理解和生成基于事实的内容。通过Pinocchio的评估，开发者能够识别并修复模型在事实推理中的缺陷，从而提高其在新闻摘要、医疗咨询、科学文献生成等领域的实用性和可信度。

数据集最近研究