WikiFactDiff

Name: WikiFactDiff
Creator: 法国国家科学研究中心
Published: 2024-03-21 20:45:12
License: 暂无描述

arXiv2024-03-21 更新2024-07-23 收录

下载链接：

https://huggingface.co/datasets/Orange/WikiFactDiff

下载链接

链接失效反馈

官方服务：

资源简介：

WikiFactDiff是由法国国家科学研究中心创建的一个大型数据集，用于研究因果语言模型中的原子事实知识更新。该数据集包含327,000条更新，描述了两个日期之间事实知识的演变，分为新、过时和静态三类。数据集通过比较2021年1月4日和2023年2月27日的Wikidata知识库状态构建。WikiFactDiff旨在解决语言模型中事实更新的问题，通过提供多种更新场景，包括替换、存档和新实体插入等，以增强模型的实用性和相关性。

WikiFactDiff is a large-scale dataset developed by the French National Centre for Scientific Research (CNRS) for researching atomic factual knowledge updates in causal language models. This dataset contains 327,000 updates that depict the evolution of factual knowledge between two dates, and is divided into three categories: new, obsolete, and static. It is constructed by comparing the states of the Wikidata knowledge base on January 4, 2021, and February 27, 2023. WikiFactDiff aims to address the challenges of factual updating in language models, by providing a variety of update scenarios including replacement, archiving, and new entity insertion to enhance the practicality and relevance of such models.

提供机构：

法国国家科学研究中心

创建时间：

2024-03-21

原始信息汇总

WikiFactDiff 数据集概述

数据集描述

WikiFactDiff 是一个描述两个日期之间事实变化的数据集，分为新、过时和静态三类。事实以主语-关系-对象三元组的形式表示，并通过比较两个时间点 $T_{old}$ 和 $T_{new}$ 的 Wikidata 知识库状态构建。该数据集包含用于更新算法和评估的口头化模板和完形填空测试。

数据集特征

语言：英语
许可：CC BY-SA 4.0

数据集结构

WikiFactDiff 包含一系列更新记录，每个元素包含以下字段：

"subject" (字典)
- "id"：主语 Wikidata ID (字符串)
- "label"：主语 Wikidata 标签 (字符串)
- "description"：主语 Wikidata 描述 (字符串)
"subject_is_ph_new"：主语是新实体，即在 $T_{old}$ 不存在但在 $T_{new}$ 存在的实体 (布尔值)
"subject_popularity"：主语流行度度量 (浮点数)
"relation" (字典)
- "id"：关系 Wikidata ID (字符串)
- "label"：关系 Wikidata 标签 (字符串)
- "description"：关系 Wikidata 描述 (字符串)
"relation_is_temp_func"：关系是时间功能性的 (布尔值)
"is_replace"：更新代表替换，例如替换英国首相 (布尔值)
"objects" (列表)：每个字典包含以下字段：
- "id"：对象 Wikidata ID 或 None（如果是文字）(字符串)
- "label"：对象 Wikidata 标签 (字符串)
- "description"：对象 Wikidata 描述 (字符串)
- "decision"：可以是 new、obsolete 或 static，取决于对象的真实性 (字符串)
"update_prompt"：提供给更新算法的完形填空测试 (字符串)
"generalization_prompts"：用于评估更新泛化性的完形填空测试
"neighborhood" (列表)：邻近组（事实）列表，用于评估潜在的溢出效应。每个字典包含以下字段：
- "subject" (字典)：
  - "id"：邻近主语 Wikidata ID (字符串)
  - "label"：邻近主语 Wikidata 标签 (字符串)
  - "description"：邻近主语 Wikidata 描述 (字符串)
- "dist"：两个实体之间的距离 (浮点数)
- "objects" (列表)：每个字典包含以下字段：
  - "id"：对象 Wikidata ID 或 None（如果是文字）(字符串)
  - "label"：对象 Wikidata 标签 (字符串)
  - "description"：对象 Wikidata 描述 (字符串)
  - "prompt"：用于验证语言模型对该邻近三元组知识的完形填空测试 (字符串)

数据集创建

源数据

三元组格式的事实从 Wikidata 收集。
用于口头化这些三元组的模板使用后处理的 ChatGPT 口头化创建。

数据收集和处理

在 $T_{old}$ 和 $T_{new}$ 分别收集 Wikidata 的两个实例。
这些实例经过预处理以过滤无关数据，并进行比较以获取它们之间的差异。
差异中的每个相关三元组被标记为 new、static 或 obsolete。
这些三元组被口头化，并为每个三元组收集一组邻近事实。

5,000+

优质数据集

54 个

任务类型

进入经典数据集