five

MAVEN-FACT

收藏
arXiv2024-07-22 更新2024-07-24 收录
下载链接:
https://github.com/THU-KEG/MAVEN-FACT
下载链接
链接失效反馈
官方服务:
资源简介:
MAVEN-FACT数据集由清华大学创建,是一个大规模、高质量的事件事实性检测数据集,基于MAVEN数据集扩展而来。该数据集包含112,276个事件的事实性标注,支持全面的事件理解研究。数据集的创建过程中采用了LLM-then-human的标注方法,确保了数据质量。MAVEN-FACT数据集的应用领域广泛,主要用于解决事件事实性检测问题,特别是在大型语言模型中的事件相关幻觉问题。

The MAVEN-FACT dataset, developed by Tsinghua University, is a large-scale, high-quality event factuality detection dataset expanded from the MAVEN dataset. It contains factuality annotations for 112,276 events, enabling comprehensive event understanding research. During the dataset construction process, the LLM-then-human annotation approach was adopted to ensure data quality. The MAVEN-FACT dataset has broad application scenarios, and is primarily used to address the event factuality detection task, particularly the event-related hallucination issue in large language models.
提供机构:
清华大学
创建时间:
2024-07-22
原始信息汇总

MAVEN-FACT 数据集概述

数据集简介

MAVEN-FACT 是一个基于 MAVEN 数据集的大规模高质量事件事实性检测数据集。它包含了 112,276 个事件的事实性标注和非事实性事件的支持证据标注。

数据获取

数据集可以从 Google Drive 获取。

数据格式

每个 .jsonl 文件是 MAVEN-FACT 的一个子集,每行文件是一个文档的 JSON 字符串。train.jsonlvalid.jsonl 的 JSON 格式示例如下:

json5 { "id": "364ed14fc610df6e25a2f446e2b2d2ab", // 文档的唯一字符串 "title": "Expedition of the Thousand", // 文档标题 "document": "The Expedition of the Thousand ( Italian Spedizione dei Mille ) was an event of the Italian Risorgimento that took place in 1860 . a corps of volunteers led by giuseppe garibaldi sailed from quarto , near genoa ( now quarto dei mille ) and landed in marsala , sicily , in order to conquer the kingdom of the two sicilies , ruled by the house of bourbon-two sicilies . The project was an ambitious and risky venture aiming to conquer , with a thousand men , a kingdom with a larger regular army and a more powerful navy . The expedition was a success and concluded with a plebiscite that brought Naples and Sicily into the Kingdom of Sardinia , the last territorial conquest before the creation of the Kingdom of Italy on 17 March 1861 . The sea venture was the only desired action that was jointly decided by the four fathers of the nation Giuseppe Mazzini , Giuseppe Garibaldi , Victor Emmanuel II , and Camillo Cavour , pursuing divergent goals . However , the Expedition was instigated by Francesco Crispi , who utilized his political influence to bolster the Italian unification project . The various groups participated in the expedition for a variety of reasons : for Garibaldi , it was to achieve a united Italy ; to the Sicilian bourgeoisie , an independent Sicily as part of the kingdom of Italy , and for common people , land distribution and the end of oppression .", // 文档内容 "tokens": [ // 分词后的文档内容列表,每个元素是一个分词后的句子 [ "The", "project", "was", "an", "ambitious", "and", "risky", "venture", "aiming", "to", "conquer", ",", "with", "a", "thousand", "men", ",", "a", "kingdom", "with", "a", "larger", "regular", "army", "and", "a", "more", "powerful", "navy", ".", ], ], "sentences": [ // 文档的未分词句子列表,每个元素是一个句子(字符串) "The project was an ambitious and risky venture aiming to conquer, with a thousand men, a kingdom with a larger regular army and a more powerful navy.", ], "has_arguments": true, // 文档是否包含 arguments 属性 "events": [ // 标注的事件列表,每个元素是一个事件(共指链) { "id": "EVENT_c027e659d7fe424a0a57ecbe35b3a7f9", // 事件的唯一字符串 "type": "Conquering", // 事件类型 "type_id": 21, // 事件类型的数值 ID,与 MAVEN 一致 "mention": [ // 共指链的事件提及列表,每个元素是一个字典,它们之间有共指关系 { "id": "cfd1fa5450f7f4a3ce3d6ae48ca642d3", // 事件提及的唯一字符串 "trigger_word": "conquer", // 触发词或短语 "sent_id": 1, // 对应的句子索引,从 0 开始 "offset": [30,31], // 触发词在 tokens 列表中的偏移量 "factuality": "PS+", // 事件提及的事实性值 "evidence_word": ["in", "order", "to"], // 支持事实性值的支持词列表(仅对非事实性事件) "evidence_offset": [ // 支持词的偏移量列表,每个元素是 [句子索引, 偏移量] [1, 27], [1, 28], [1, 29] ] }, ], "arguments": [ // 与事件相关的论据列表,每个元素是一个字典 { "mentions": [ // 论据提及列表 { "mention": "a corps of volunteers led by giuseppe garibaldi", // 论据词或短语 "offset": [137, 184] // 论据提及在文档中的偏移量 } ], "type": "Agent" // 论据类型 }, ] }, ], "TIMEX": [ // 标注的时间表达式列表,每个元素是一个字典 { "id": "TIME_c61b2c2b8b8c6656a1cc8443fed8c58a", // 时间表达式的唯一字符串 "mention": "1860", // 时间表达式的提及 "type": "DATE", // 时间表达式的类型 "sent_id": 0, // 对应的句子索引,从 0 开始 "offset": [24, 25] // 触发词在 tokens 列表中的偏移量 }, ], "temporal_relations": { // 事件(和时间表达式)之间的时间关系列表 "BEFORE": [ // BEFORE 类型的时间关系列表 ["EVENT_id_1", "EVENT_id_2"], // 时间关系实例,表示 EVENT_id_1 在 EVENT_id_2 之前 ], "OVERLAP": [ // 以下类型类似 ["EVENT_id_1", "EVENT_id_2"], ], "CONTAINS": [ ["EVENT_id_1", "EVENT_id_2"], ], "SIMULTANEOUS": [ ["EVENT_id_1", "EVENT_id_2"], ], "ENDS-ON": [ ["EVENT_id_1", "EVENT_id_2"], ], "BEGINS-ON": [ ["EVENT_id_1", "EVENT_id_2"], ] }, "causal_relation": { // 事件之间的因果关系列表 "CAUSE": [ // CAUSE 类型的因果关系列表 ["EVENT_id_1", "EVENT_id_2"], // 因果关系实例,表示 EVENT_id_1 导致 EVENT_id_2 ], "PRECONDITION": [ // PRECONDITION 类型类似 ["EVENT_id_1", "EVENT_id_2"], ] }, "subevent_relations": [ // 事件之间的子事件关系列表 ["EVENT_id_1", "EVENT_id_2"], // 子事件关系实例,表示 EVENT_id_2 是 EVENT_id_1 的子事件 ] }

搜集汇总
数据集介绍
main_image_url
构建方式
MAVEN-FACT 数据集的构建基于 MAVEN 数据集,通过扩展 MAVEN 的标注信息来包含事件的真实性。首先,利用 GPT-3.5 进行预标注,将事件的真实性标注为确定或非确定两类,以减少人工标注的成本。随后,对预标注为非确定的事件进行人工标注,并确保验证集和测试集中的事件全部由人工标注。通过这种方法,MAVEN-FACT 数据集不仅保持了高质量,还降低了标注成本。
使用方法
使用 MAVEN-FACT 数据集时,首先需要了解其标注信息,包括事件类型、论点、关系和真实性。其次,可以利用数据集中的支持证据标注来评估模型的解释能力。此外,还可以通过分析事件元素之间的交互来研究事件元素如何影响真实性检测。最后,可以将 MAVEN-FACT 数据集应用于减轻大型语言模型中的事件相关幻觉,通过整合事件的真实性信息来减少模型产生幻觉的可能性。
背景与挑战
背景概述
在事件理解研究领域,事件真实性检测(Event Factuality Detection, EFD)任务旨在判断文本事件的真伪性,即对事件进行分类,判断其为事实、可能性或不可能性。这是对事件知识进行忠实理解和利用的基础。然而,由于缺乏高质量的大规模数据,事件真实性检测在事件理解研究中的探索不足,这限制了EFD领域的发展。为了解决这些问题并提供忠实的事件理解,清华大学的研究团队基于MAVEN数据集,推出了MAVEN-FACT,这是一个大规模和高质量的EFD数据集。MAVEN-FACT包括112,276个事件的真实性注释,使其成为迄今为止最大的EFD数据集。广泛的实验表明,MAVEN-FACT对传统的微调模型和大型语言模型(LLMs)都构成了挑战。MAVEN数据集提供了事件论元和关系方面的全面注释,这使得MAVEN-FACT能够支持进一步的深入分析和研究。
当前挑战
MAVEN-FACT数据集在事件真实性检测领域提出了多个挑战。首先,现有的事件真实性检测模型在MAVEN-FACT数据集上的表现并不理想,这表明现有的模型和方法在处理大规模、高质量数据集时存在不足。其次,尽管模型可以正确地检测事件的真实性,但它们在提供支持其预测的证据方面存在困难。此外,MAVEN-FACT数据集还揭示了事件元素(如类型、论元和关系)对真实性检测的影响,这对于理解事件的真实性具有重要意义。最后,MAVEN-FACT数据集在减少大型语言模型(LLMs)中的事件相关幻觉方面显示出潜力,这为未来研究和应用提供了新的方向。
常用场景
经典使用场景
在事件理解研究领域,事件事实性检测(EFD)是一项核心任务,它旨在判断文本中描述的事件是事实、可能性还是不可能性。MAVEN-FACT数据集是针对EFD任务构建的大规模高质量数据集,它基于MAVEN数据集,包含112,276个事件的事实性标注,是目前最大的EFD数据集。该数据集的引入,为EFD模型的训练和评估提供了丰富的数据资源,有助于推动EFD研究的发展。
解决学术问题
MAVEN-FACT数据集的构建解决了EFD研究领域中缺乏大规模高质量数据集的问题,为EFD模型的训练和评估提供了宝贵的数据资源。此外,MAVEN-FACT数据集还提供了事件论元和关系的标注,有助于更全面地理解事件,从而提高EFD模型的性能。该数据集的引入,对于推动EFD研究的发展具有重要意义。
实际应用
MAVEN-FACT数据集在实际应用中,可以帮助理解文本中的事件,从而更好地进行事件预测和推理。例如,在新闻分析、舆情监控、智能客服等领域,通过EFD模型对文本中的事件进行事实性判断,可以帮助用户更好地理解事件,从而做出更准确的决策。此外,MAVEN-FACT数据集还可以用于提高大型语言模型(LLM)的可靠性,通过将事件事实性信息整合到LLM的输入中,可以有效减少LLM产生的事件相关幻觉,提高LLM的输出质量。
数据集最近研究
最新研究方向
在事件理解研究领域,事件真实性检测(EFD)任务旨在确定文本事件的现实性,即判断事件是事实、可能性还是不可能性。MAVEN-FACT数据集的引入为该领域的研究提供了高质量的、大规模的数据支持。该数据集不仅规模庞大,而且包含了事件类型、参数、关系和现实性等全面标注,为事件理解的深入研究提供了坚实基础。MAVEN-FACT数据集的发布有助于推动EFD模型和大型语言模型(LLMs)在事件真实性检测任务上的性能提升,并初步探索了事件真实性检测在缓解LLMs事件相关幻觉方面的应用。未来研究可以进一步探索更先进的自动标注方法,以及LLMs在EFD任务上的性能提升。
相关研究论文
  • 1
    MAVEN-Fact: A Large-scale Event Factuality Detection Dataset清华大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作