five

中国历史信息抽取语料库(CHisIEC)|历史文献分析数据集|实体识别与关系抽取数据集

收藏
arXiv2024-04-20 更新2024-06-21 收录
历史文献分析
实体识别与关系抽取
下载链接:
https://github.com/tangxuemei1995/CHisIEC
下载链接
链接失效反馈
资源简介:
中国历史信息抽取语料库(CHisIEC)是由北京大学信息管理系和数字人文研究中心精心策划的数据集,专注于古代中国历史文献的实体识别(NER)和关系抽取(RE)任务。该数据集涵盖了从公元前91年至公元1739年,跨越13个朝代的历史文献,总计包含14,194个实体和8,609个关系。在创建过程中,研究团队根据历史文献的内容和语言特点,定义了四类实体类型和十二类关系类型,并通过详细的标注指南进行数据标注。CHisIEC的应用领域主要集中在古代中国历史的研究,旨在通过结构化分析解决历史文献中的信息抽取问题。
提供机构:
北京大学信息管理系
创建时间:
2024-03-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了推动中国古代历史与文化研究,CHisIEC数据集应运而生。该数据集的构建始于对《二十四史》中13个历史时期书籍的精选,这些书籍跨越了1830年的悠久历史。随后,结合历史文献的内容和语言特点,定义了四种实体类型和十二种关系类型。最后,邀请标注者根据详细的标注指南进行标注,形成了包含14,194个实体和8,609个关系的标注数据集。
特点
CHisIEC数据集的特色在于其广泛的时间跨度和文本异质性,涵盖了中国古代历史的多个朝代,真实地反映了历史文献的多样性。数据集包含四种不同的实体类型和十二种关系类型,共计超过130K个标记的字符。此外,数据集在标注过程中采用了多人标注和专业审核的模式,确保了标注的一致性和质量。
使用方法
使用CHisIEC数据集时,首先需要理解其标注规范和实体类型定义。数据集已分为训练集、验证集和测试集,便于模型训练和评估。对于命名实体识别(NER)和关系抽取(RE)任务,可以采用序列标注和关系分类的方法进行模型训练。同时,数据集也支持对大型语言模型(LLM)进行微调和上下文学习,以评估其在古代中国历史领域的应用能力。
背景与挑战
背景概述
在数字人文领域中,自然语言处理(NLP)对于历史与文化遗产文本的结构化分析至关重要,特别是在命名实体识别(NER)和关系抽取(RE)方面。为了促进中国古代历史与文化的研究,北京大学信息管理系、北京大学数字人文研究中心、北京大学外国语学院及北京大学人工智能研究院的研究人员共同构建了“中国历史信息抽取语料库”(CHisIEC)。该数据集于2024年4月发布,旨在为NER和RE任务提供资源,以推动该领域的研究。CHisIEC涵盖了13个朝代,跨越1830年的历史时间线,体现了中国古代文献的广泛时间跨度和文本异质性。该数据集包含四种不同的实体类型和十二种关系类型,总计14,194个实体和8,609个关系。研究团队进行了广泛的实验,以验证该数据集的鲁棒性和通用性,包括使用不同规模和范例的模型,并评估大型语言模型(LLMs)在古代中国历史相关任务中的能力。
当前挑战
CHisIEC数据集面临的挑战主要包括:1) 古代中国历史文献的领域问题,由于这些文献跨越了广阔的时间范围和表现出语言异质性,因此在信息抽取方面存在独特的挑战;2) 构建数据集的过程中,研究人员需要从《二十四史》中选择具有代表性的13本历史书籍作为原始数据,并定义特定的实体类型和关系类型,以及制定详细的标注指南。此外,由于古代汉语与现代汉语在词汇和语法上的差异,以及历史文献的多样性,标注过程需要严格的质量控制和一致性保证。
常用场景
经典使用场景
CHisIEC数据集被广泛用于古代中国历史领域的信息抽取任务,包括命名实体识别(NER)和关系抽取(RE)。它特别适用于训练和评估针对古代汉语文本的深度学习模型,旨在理解和提取历史文献中的关键信息。该数据集的时间跨度长,文本异构性高,使得模型能够更好地适应不同历史时期的语言特点。通过使用CHisIEC,研究者可以构建更加精确和全面的历史知识图谱,从而为历史研究和文化遗产保护提供有力支持。
实际应用
CHisIEC数据集在实际应用中,可以帮助构建更加精确和全面的历史知识图谱,从而为历史研究和文化遗产保护提供有力支持。通过使用该数据集训练的模型,可以自动化地识别和提取古代汉语文献中的关键信息,如人物、地点、官职和书籍等,以及它们之间的关系。这对于构建历史数据库、开发智能搜索引擎和历史文本的语义分析工具具有重要意义。此外,CHisIEC数据集还可以用于教育和研究目的,帮助学者更好地理解和分析古代中国历史。
衍生相关工作
CHisIEC数据集的发布促进了古代汉语信息抽取领域的研究,衍生出了一系列相关工作。例如,一些研究者使用该数据集来训练和评估预训练语言模型(PLM)和大型语言模型(LLM)在古代汉语信息抽取任务上的性能。这些研究结果表明,PLM在NER任务上表现优于LLM,而LLM在RE任务上表现较好。此外,一些研究者还探索了使用LLM进行少样本学习和零样本学习的方法,以解决古代汉语信息抽取任务中的数据稀缺问题。这些研究不仅推动了古代汉语信息抽取技术的发展,也为其他领域的自然语言处理研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Agricultural Pests Dataset

Agricultural Pests Classification

kaggle 收录

人民日报语料库 (1998.1)

本库主要提供用于NER任务的处理好的语料,包括基于词级和字级任务的NER数据。数据集包含19484个以行为粒度切分的句子,句子长度最大为659,平均长度为57.55666187641141。实体标注采用BIO格式,区分人名、地名和机构团体。

github 收录