five

GuwenEE

收藏
github2023-08-01 更新2024-05-31 收录
下载链接:
https://github.com/Lyn4ever29/GuwenEE
下载链接
链接失效反馈
官方服务:
资源简介:
本语料库是一个古汉语领域事件抽取语料库,原始数据来自《二十四史》,从中随机抽取部分句子作为标注语料,通过大规模语言模型与人工相结合的方式构建。包含古汉语句子1000条,7个事件类别(一个分类),72个事件类型(二级分类),1928 个事件。

This corpus is an event extraction corpus in the field of ancient Chinese, with original data sourced from the 'Twenty-Four Histories'. A portion of sentences were randomly selected as annotated corpora, constructed through a combination of large-scale language models and manual efforts. It includes 1,000 ancient Chinese sentences, 7 event categories (primary classification), 72 event types (secondary classification), and 1,928 events.
创建时间:
2023-05-29
原始信息汇总

数据集概述

数据集名称

  • GuwenEE
  • 古汉语事件抽取语料库

数据集内容

  • 数据来源:《二十四史》
  • 数据规模:包含1000条古汉语句子
  • 事件类别:7个
  • 事件类型:72个
  • 事件总数:1928个

事件类型示例

事件类别 事件类型
人生 出生, 婚嫁, 死亡, 继承, 高中, ...
战争 起兵事件, 进攻事件, 出征事件, 围攻事件, ...
政治 推举事件, 诬陷事件, 叛变事件, 诏谕事件, ...
民事 迁徙事件, 宗教事件, 射箭事件, 其他事件, ...
日常 会见事件, 交谈事件, 出行事件, 谴责事件, ...
文化 历史记载, 撰写事件, ...
地理 地震, 海汛, 流星雨, ...

数据集下载

测评实验运行

  • 实验设计:使用4个古汉语领域的预训练模型进行事件抽取任务,包括事件识别(ED)和事件元素提取(EAE)。
  • 预训练模型
    • guwenbert-base
    • roberta-clas-sical-chinese-base
    • sikubert
    • sikuroberta

实验测评结果

任务 模型 Precision Recall F1
ED Guwen-BERT 27.10 27.10 38.77
roberta-clas-sical-chinese-base 58.72 28.34 38.23
Siku-BERT 63.09 48.30 54.71
Siku-RoBERTa 59.30 45.17 51.28
EAE Guwen-BERT 21.42 11.96 14.50
roberta-clas-sical-chinese-base 20.05 8.15 11.57
Siku-BERT 45.56 43.26 44.38
Siku-RoBERTa 40.40 39.61 40.00

开源框架使用

  • 古汉语分词器:jiayan
  • 事件抽取框架:OmniEvent
搜集汇总
数据集介绍
main_image_url
构建方式
GuwenEE数据集的构建依托于《二十四史》中的古汉语文本,通过随机抽取部分句子作为基础语料。构建过程中,采用了大规模语言模型与人工标注相结合的方式,确保了数据的准确性和丰富性。语料库共包含1000条古汉语句子,涵盖了7个主要事件类别和72个具体事件类型,共计1928个事件,为古汉语事件抽取研究提供了坚实的基础。
特点
GuwenEE数据集的特点在于其专注于古汉语领域的事件抽取,提供了丰富的事件类别和类型,涵盖了从人生、战争到文化、地理等多个领域。数据集中的每个事件都详细标注了触发词、事件类型及相关的论元信息,如时间、地点、参与者等,这些细致的标注为研究者提供了深入分析古汉语事件结构的机会。此外,数据集还提供了事件Schema,便于用户理解和应用。
使用方法
使用GuwenEE数据集时,用户需首先下载并安装相应的Python环境和依赖库。数据集支持多种预训练模型,如Guwen-BERT、Siku-BERT等,用户可根据需求选择合适的模型进行事件抽取任务。通过运行提供的脚本,用户可以执行事件识别(ED)和事件元素提取(EAE)等任务。此外,数据集还提供了详细的配置文件和数据处理脚本,用户可根据实验需求进行调整和优化,以获得最佳的研究效果。
背景与挑战
背景概述
GuwenEE数据集是一个专注于古汉语事件抽取的语料库,由Lyn4ever29团队构建并发布于GitHub平台。该数据集的原始数据源自《二十四史》,通过随机抽取部分句子并进行标注,结合大规模语言模型与人工标注的方式,构建了一个包含1000条古汉语句子、7个事件类别和72个事件类型的语料库。该数据集的核心研究问题在于如何从古汉语文本中准确抽取事件信息,涵盖了人生、战争、政治、民事、日常、文化和地理等多个领域。GuwenEE的发布为古汉语自然语言处理领域提供了重要的数据支持,推动了古汉语事件抽取技术的发展。
当前挑战
GuwenEE数据集在构建和应用过程中面临多重挑战。首先,古汉语的语法结构与现代汉语存在显著差异,且缺乏标准化的分词工具,导致事件抽取任务在文本预处理阶段便面临困难。其次,古汉语文本中事件类型的多样性和复杂性增加了标注的难度,尤其是在事件触发词和事件论元的识别上,需要依赖大量的人工标注和领域知识。此外,现有的预训练模型在古汉语领域的表现仍不理想,尽管数据集采用了多个古汉语预训练模型进行实验,但其在事件识别(ED)和事件论元抽取(EAE)任务中的F1值普遍较低,表明模型在古汉语事件抽取任务上的泛化能力有待提升。这些挑战不仅影响了数据集的构建质量,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
GuwenEE数据集在古汉语事件抽取领域具有广泛的应用,尤其是在历史文献的自动化处理与分析中。通过该数据集,研究人员能够对《二十四史》等经典文献中的事件进行自动化识别与分类,从而为历史学研究提供数据支持。该数据集不仅涵盖了战争、政治、民事等多个事件类别,还通过细粒度的事件类型划分,为古汉语文本的语义理解提供了丰富的标注信息。
解决学术问题
GuwenEE数据集有效解决了古汉语文本事件抽取中的关键问题,如事件触发词识别、事件类型分类以及事件论元提取等。通过大规模语言模型与人工标注相结合的方式,该数据集为古汉语事件抽取任务提供了高质量的标注数据,显著提升了模型的性能。此外,该数据集还为古汉语自然语言处理领域的研究提供了新的基准,推动了相关技术的发展。
衍生相关工作
GuwenEE数据集的发布催生了一系列相关研究工作,尤其是在古汉语事件抽取模型的优化与改进方面。基于该数据集,研究人员提出了多种预训练模型,如Guwen-BERT、Siku-BERT等,并在事件识别与论元提取任务上取得了显著进展。此外,该数据集还推动了古汉语自然语言处理工具的开发,如古汉语分词器jiayan,为后续研究提供了重要的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作