five

MAVEN-FACT

收藏
github2024-07-07 更新2024-07-11 收录
下载链接:
https://github.com/lcy2723/MAVEN-FACT
下载链接
链接失效反馈
官方服务:
资源简介:
用于事件事实性检测的大规模数据集。

A large-scale dataset for event factuality detection.
创建时间:
2024-07-07
原始信息汇总

MAVEN-FACT 数据集概述

数据集简介

MAVEN-FACT 是一个基于 MAVEN 数据集的大规模高质量事件事实性检测数据集。它包含 112,276 个事件的事实性标注和非事实性事件的支持证据标注。

数据获取

数据集可以从 Google Drive 获取。

数据格式

每个 .jsonl 文件是 MAVEN-FACT 的一个子集,文件中的每一行是一个文档的 JSON 字符串。train.jsonlvalid.jsonl 的 JSON 格式示例如下:

json5 { "id": "364ed14fc610df6e25a2f446e2b2d2ab", // 每个文档的唯一字符串 "title": "Expedition of the Thousand", // 文档标题 "document": "The Expedition of the Thousand ( Italian Spedizione dei Mille ) was an event of the Italian Risorgimento that took place in 1860 . a corps of volunteers led by giuseppe garibaldi sailed from quarto , near genoa ( now quarto dei mille ) and landed in marsala , sicily , in order to conquer the kingdom of the two sicilies , ruled by the house of bourbon-two sicilies . The project was an ambitious and risky venture aiming to conquer , with a thousand men , a kingdom with a larger regular army and a more powerful navy . The expedition was a success and concluded with a plebiscite that brought Naples and Sicily into the Kingdom of Sardinia , the last territorial conquest before the creation of the Kingdom of Italy on 17 March 1861 . The sea venture was the only desired action that was jointly decided by the four fathers of the nation Giuseppe Mazzini , Giuseppe Garibaldi , Victor Emmanuel II , and Camillo Cavour , pursuing divergent goals . However , the Expedition was instigated by Francesco Crispi , who utilized his political influence to bolster the Italian unification project . The various groups participated in the expedition for a variety of reasons : for Garibaldi , it was to achieve a united Italy ; to the Sicilian bourgeoisie , an independent Sicily as part of the kingdom of Italy , and for common people , land distribution and the end of oppression .", // 文档内容 "tokens": [ // 分词后的文档内容,每个元素是一个分词后的句子 [ "The", "project", "was", "an", "ambitious", "and", "risky", "venture", "aiming", "to", "conquer", ",", "with", "a", "thousand", "men", ",", "a", "kingdom", "with", "a", "larger", "regular", "army", "and", "a", "more", "powerful", "navy", ".", ], ], "sentences": [ // 未分词的句子,每个元素是一个句子(字符串) "The project was an ambitious and risky venture aiming to conquer, with a thousand men, a kingdom with a larger regular army and a more powerful navy.", ], "has_arguments": true, // 文档是否包含 arguments 属性 "events": [ // 标注的事件列表,每个元素是一个事件(共指链) { "id": "EVENT_c027e659d7fe424a0a57ecbe35b3a7f9", // 事件的唯一字符串 "type": "Conquering", // 事件类型 "type_id": 21, // 事件类型的数值 ID,与 MAVEN 一致 "mention": [ // 共指事件提及的列表,每个元素是一个字典,它们之间有共指关系 { "id": "cfd1fa5450f7f4a3ce3d6ae48ca642d3", // 事件提及的唯一字符串 "trigger_word": "conquer", // 触发词或短语 "sent_id": 1, // 对应的句子索引,从 0 开始 "offset": [30,31], // 触发词在 tokens 列表中的偏移量 "factuality": "PS+", // 事件提及的事实性值 "evidence_word": ["in", "order", "to"], // 支持事实性值的词列表(仅对非事实性事件) "evidence_offset": [ // 支持词的偏移量列表,每个元素是 [句子索引, 偏移量] [1, 27], [1, 28], [1, 29] ] }, ], "arguments": [ // 与事件相关的论据列表,每个元素是一个字典 { "mentions": [ // 论据提及的列表 { "mention": "a corps of volunteers led by giuseppe garibaldi", // 论据词或短语 "offset": [137, 184] // 论据提及在文档中的偏移量 } ], "type": "Agent" // 论据类型 }, ] }, ], "TIMEX": [ // 标注的时间表达式列表,每个元素是一个字典 { "id": "TIME_c61b2c2b8b8c6656a1cc8443fed8c58a", // 时间表达式的唯一字符串 "mention": "1860", // 时间表达式的提及 "type": "DATE", // 时间表达式的类型 "sent_id": 0, // 对应的句子索引,从 0 开始 "offset": [24, 25] // 触发词在 tokens 列表中的偏移量 }, ], "temporal_relations": { // 事件(和时间表达式)之间的时间关系列表 "BEFORE": [ // BEFORE 类型的时间关系列表 ["EVENT_id_1", "EVENT_id_2"], // 时间关系实例,表示 EVENT_id_1 在 EVENT_id_2 之前 ], "OVERLAP": [ // 以下类型类似 ["EVENT_id_1", "EVENT_id_2"], ], "CONTAINS": [ ["EVENT_id_1", "EVENT_id_2"], ], "SIMULTANEOUS": [ ["EVENT_id_1", "EVENT_id_2"], ], "ENDS-ON": [ ["EVENT_id_1", "EVENT_id_2"], ], "BEGINS-ON": [ ["EVENT_id_1", "EVENT_id_2"], ] }, "causal_relation": { // 事件之间的因果关系列表 "CAUSE": [ // CAUSE 类型的因果关系列表 ["EVENT_id_1", "EVENT_id_2"], // 因果关系实例,表示 EVENT_id_1 导致 EVENT_id_2 ], "PRECONDITION": [ // PRECONDITION 类型类似 ["EVENT_id_1", "EVENT_id_2"], ] }, "subevent_relations": [ // 事件之间的子事件关系列表 ["EVENT_id_1", "EVENT_id_2"], // 子事件关系实例,表示 EVENT_id_2 是 EVENT_id_1 的子事件 ] }

搜集汇总
数据集介绍
main_image_url
构建方式
MAVEN-FACT数据集的构建基于MAVEN数据集,通过对其中的事件进行大规模的事实性标注而形成。该数据集包含了112,276个事件的事实性标注,并为非事实性事件提供了支持证据的标注。数据集的构建过程涉及对文档中的事件进行细致的标注,包括事件类型、触发词、事实性值及其支持证据等,确保了数据的高质量和多样性。
使用方法
MAVEN-FACT数据集的使用方法包括从Google Drive下载数据集文件,并按照提供的JSON格式进行解析。数据集适用于事件事实性检测和支持证据检测等任务。用户可以通过运行实验脚本来训练和评估模型,具体步骤可参考GitHub页面上的详细说明。数据集的多样性和详细标注使其成为研究事件事实性检测和相关任务的理想资源。
背景与挑战
背景概述
MAVEN-FACT数据集是基于MAVEN数据集构建的一个大规模高质量的事件事实性检测数据集。该数据集由主要研究人员或机构于近期创建,旨在解决事件事实性检测这一核心研究问题。MAVEN-FACT包含了112,276个事件的事实性标注,以及非事实性事件的支持证据标注。这一数据集的推出,极大地推动了事件事实性检测领域的发展,为相关研究提供了丰富的资源和基准。
当前挑战
MAVEN-FACT数据集在构建过程中面临了多个挑战。首先,事件事实性检测本身就是一个复杂的任务,涉及对文本中事件的真实性进行准确判断。其次,数据集的构建需要对大量文本进行精细的标注,确保每个事件的事实性标注和支持证据的准确性。此外,如何处理和整合不同类型的事件和证据,以提高数据集的质量和实用性,也是一项重要的挑战。这些挑战不仅影响了数据集的构建效率,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
在事件事实性检测领域,MAVEN-FACT数据集以其大规模和高品质的标注数据成为研究者的首选。该数据集通过详细的事件事实性标注和相关证据的注释,为研究人员提供了一个丰富的资源库,用于开发和评估事件事实性检测模型。其经典使用场景包括:通过训练模型识别文档中事件的事实性状态,进而提升信息检索、新闻验证和历史事件分析等任务的准确性。
解决学术问题
MAVEN-FACT数据集解决了事件事实性检测中的关键学术问题,包括事件事实性标注的准确性和一致性。通过提供大规模的标注数据和详细的证据注释,该数据集显著推动了事件事实性检测技术的发展,为学术界提供了新的研究方向和实验平台。其意义在于提升了事件事实性检测模型的性能,为相关领域的研究提供了坚实的基础。
实际应用
在实际应用中,MAVEN-FACT数据集被广泛用于新闻验证、信息检索和历史事件分析等领域。例如,在新闻验证中,该数据集可以帮助识别新闻报道中的事实性错误,提高新闻的可信度。在信息检索中,通过事件事实性检测,可以提升检索结果的相关性和准确性。此外,在历史事件分析中,该数据集有助于识别和验证历史事件的真实性,为历史研究提供支持。
数据集最近研究
最新研究方向
在事件事实性检测领域,MAVEN-FACT数据集的引入为研究者提供了丰富的资源和新的视角。该数据集不仅包含了大规模的事件事实性标注,还提供了支持非事实事件的证据标注,这使得研究者能够更深入地探索事件的真实性和可信度。当前的研究方向主要集中在利用深度学习模型,如BERT和其变体,来提高事件事实性检测的准确性。此外,结合多模态数据和跨文档信息,研究者们正在尝试构建更加鲁棒和泛化能力强的模型,以应对复杂和多变的事件描述。这些研究不仅推动了事件事实性检测技术的发展,也为新闻验证、虚假信息检测等实际应用提供了有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作