five

Title2Event

收藏
arXiv2022-11-02 更新2024-06-21 收录
下载链接:
https://open-event-hub.github.io/title2event
下载链接
链接失效反馈
官方服务:
资源简介:
Title2Event是由腾讯创建的大规模中文新闻标题数据集,包含超过42,000条来自34个不同领域的新闻标题。该数据集通过人工标注,形成了70,947个事件三元组,涵盖24,231个独特的谓词。Title2Event旨在通过开放事件抽取任务,不限制事件类型,来推动事件抽取技术的研究。数据集的创建过程中,采用了详细的标注指南和两轮专家审核以确保质量。Title2Event特别关注新闻标题中的事件抽取,旨在解决现有模型在处理新闻标题时遇到的挑战,如非标准语法和角色重叠问题,以及需要特定领域知识的情况。

Title2Event is a large-scale Chinese news headline dataset developed by Tencent, encompassing over 42,000 news headlines across 34 distinct domains. Through manual annotation, it has yielded 70,947 event triples, covering 24,231 unique predicates. The dataset is designed to promote research in event extraction via the open event extraction task without restricting event types. During its construction, detailed annotation guidelines and two rounds of expert reviews were implemented to ensure data quality. Specifically, Title2Event targets event extraction from news headlines, aiming to resolve the challenges faced by current models when processing such headlines, including non-standard syntax, overlapping event roles, and scenarios requiring domain-specific expertise.
提供机构:
腾讯
创建时间:
2022-11-02
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻事件抽取领域,Title2Event数据集的构建体现了对大规模中文标题语料的系统性采集与精细化标注。研究团队通过腾讯搜索引擎的爬虫日志及专业工具,广泛收集了2022年1月至3月期间的中文网页标题,并自动标注了34个主题类别,同时剔除了含有不良内容的样本。为确保事件多样性,团队在采集过程中每十日进行一次数据采样,以平衡高频主题的分布。最终,通过众包标注与专家双重审核机制,对超过42,000条标题进行了人工标注,生成了70,947个事件三元组,涵盖了24,231个独特谓词,形成了当前规模最大、质量最高的中文开放事件抽取数据集。
特点
Title2Event数据集在事件抽取研究中展现出多方面的显著特点。该数据集摒弃了传统事件抽取中预定义事件类型与固定模式的限制,采用开放事件抽取范式,将事件表示为(主体,谓词,客体)三元组形式,从而能够灵活捕捉网络新闻标题中涌现的多样化事件。数据集中标题平均包含1.65个事件,最多可达6个,且角色重叠现象较为普遍,约21.5%的实例存在同一实体在不同事件中扮演不同角色的情况。此外,标题中非规范写作风格(如成分省略或语序倒装)以及特定领域知识的需求,进一步增加了事件抽取的复杂性与挑战性。
使用方法
Title2Event数据集为开放事件抽取任务提供了基准评估平台,支持多种模型架构的验证与比较。研究者可将数据集按标准划分用于训练、验证与测试,通过序列标注、机器阅读理解或序列到序列生成等方法,实现事件三元组的自动抽取。评估时需遵循精确匹配准则,即预测的事件触发词、论元及完整三元组需与标注结果完全一致,进而计算精确率、召回率与F1分数。该数据集尤其适用于探究多事件抽取、角色重叠及领域知识融合等难点问题,为提升真实场景下事件抽取模型的鲁棒性与泛化能力提供了重要资源。
背景与挑战
背景概述
Title2Event数据集由腾讯、香港科技大学、清华大学和中国科学技术大学的研究团队于2022年共同构建,旨在推动开放事件抽取领域的发展。该数据集聚焦于中文新闻标题,包含超过42,000条来自34个主题的标题,并标注了约70,000个事件三元组,是目前规模最大的人工标注中文开放事件抽取基准。其核心研究问题在于突破传统事件抽取方法中预定义事件类型与固定模式的限制,通过将事件表示为(主体,谓词,客体)三元组的形式,实现对多样化、新兴事件的灵活抽取。这一创新不仅丰富了事件抽取在真实场景中的应用,也为新闻聚合、事件知识图谱构建等下游任务提供了重要支持。
当前挑战
Title2Event数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题层面,新闻标题的事件抽取需应对非常规写作风格,如主语省略或语序倒装,以及角色重叠问题,即同一实体在多个事件中扮演不同角色,这要求模型具备更强的文本理解能力。此外,标题常涉及特定领域知识,例如体育术语,缺乏相关知识可能导致事件误解。在构建过程中,数据标注面临高度复杂性,需统一中文谓词识别标准,并处理标题中事件数量的不固定性,同时通过多轮专家审核确保标注质量,这些因素共同增加了数据集的构建难度。
常用场景
经典使用场景
在自然语言处理领域,事件抽取作为信息抽取的核心任务,旨在从非结构化文本中提取结构化事件信息。Title2Event数据集专为开放式事件抽取而设计,其经典使用场景聚焦于中文新闻标题的事件三元组提取。该数据集摒弃了传统事件抽取中预定义事件类型和固定模式的限制,采用(主语,谓语,宾语)的通用三元组形式来表征事件。研究人员利用该数据集训练和评估模型从新闻标题中自动识别并抽取出核心事件要素,例如从标题“夏巴兹·谢里夫成为巴基斯坦新一任总理”中提取出(夏巴兹·谢里夫, 成为, 巴基斯坦新一任总理)这一完整事件。这种范式特别适用于处理互联网上涌现的海量、多样且语法结构灵活的新闻标题,为模型在真实、开放环境下的泛化能力提供了标准化的测试平台。
实际应用
Title2Event数据集的实际应用价值深远,其提取的结构化事件信息是下游多项任务的关键基石。在新闻聚合与推荐系统中,基于从海量新闻标题中抽取的事件,可以高效地识别和聚类报道同一事件的新闻,为用户提供多源、全面的信息视图。在事件知识图谱构建领域,该数据集提供的(主语,谓语,宾语)三元组是构建事件节点和关系边的基础事实,有助于形成动态、可追溯的事件演化网络。此外,在舆情分析、社交媒体趋势追踪以及金融风控等信息密集型场景中,快速、准确地从标题中捕捉核心事件,能够显著提升信息处理的效率与自动化水平,为决策支持系统提供及时、结构化的情报输入。
衍生相关工作
围绕Title2Event数据集所定义的开放式事件抽取任务,已衍生出一系列探索性的经典研究工作。这些工作主要集中于改进针对该任务特性的模型架构。例如,研究比较了序列标注模型(SeqTag)、基于跨度预测的机器阅读理解模型(SpanMRC)以及序列到序列的生成式模型(Seq2SeqMRC)在解决标题非常规写作和角色重叠问题上的性能差异。实验表明,生成式模型因其不受限于文本中的固定跨度,在处理灵活语序和复杂事件结构时展现出优势。这些基线模型的建立与性能分析,为后续研究提供了明确的改进方向,激励着学界探索更先进的端到端文本到结构生成模型,以应对管道架构中的错误传播问题,并提升对多事件、复杂关联标题的抽取能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作