Pinocchio Dataset
收藏Pinocchio Dataset概述
数据集目的
Pinocchio数据集旨在探索大型语言模型(LLMs)中事实知识的范围和程度。该数据集包含20,000个多样化的实际问题,覆盖不同的来源、时间线、领域、地区和语言。
数据集内容
数据集详细分为以下几个领域:
- Multifaceted: 包含多个事实,来源为FEVER,共有3,332条记录。
- Structural: 包含结构化和非结构化事实,来源为FEVEROUS,共有3,944条记录。
- Adversarial: 包含通过对抗方法编辑的事实,来源为Symmetric和FM2,共有1,736条记录。
- Temporal: 包含随时间变化,来源为VitaminC,共有3,296条记录。
- Real-World: 包含在线传播的事实陈述,来源为PolitiFact,共有3,582条记录。
- Domain-Specific: 包含来自健康和科学领域的事实,来源为PubHealth和SciFact,共有2,608条记录。
- Multi-Lingual: 包含不同语言的事实,来源为XFact和CHEF,共有2,215条记录。
总计,数据集包含21,940条记录,其中事实记录8,713条,非事实记录9,619条,未明确信息3,608条。
数据集文件位置
- 原始数据集:
Pinocchio/dataset.jsonl - 精简版数据集:
Pinocchio/lite/
引用信息
如需引用此数据集,请使用以下BibTeX条目:
tex @article{HuPino2023, author = {Xuming Hu and Junzhe Chen and Xiaochuan Li and Yufei Guo and Lijie Wen and Philip S. Yu and Zhijiang Guo}, title = {Towards Understanding Factual Knowledge of Large Language Models}, journal = {12th International Conference on Learning Representations, {ICLR} 2024, Messe Wien Exhibition and Congress Center, Vienna Austria May 7th, 2024 to May 11th, 2024}, volume = {2024}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2310.05177}, doi = {10.48550/ARXIV.2310.05177}, eprinttype = {arXiv}, eprint = {2310.05177}, timestamp = {Fri, 20 Oct 2023 12:04:38 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2310-05177.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




