five

中国历史信息抽取语料库(CHisIEC)

收藏
arXiv2024-04-20 更新2024-06-21 收录
下载链接:
https://github.com/tangxuemei1995/CHisIEC
下载链接
链接失效反馈
官方服务:
资源简介:
中国历史信息抽取语料库(CHisIEC)是由北京大学信息管理系和数字人文研究中心精心策划的数据集,专注于古代中国历史文献的实体识别(NER)和关系抽取(RE)任务。该数据集涵盖了从公元前91年至公元1739年,跨越13个朝代的历史文献,总计包含14,194个实体和8,609个关系。在创建过程中,研究团队根据历史文献的内容和语言特点,定义了四类实体类型和十二类关系类型,并通过详细的标注指南进行数据标注。CHisIEC的应用领域主要集中在古代中国历史的研究,旨在通过结构化分析解决历史文献中的信息抽取问题。

The Chinese Historical Information Extraction Corpus (CHisIEC) is a meticulously curated dataset developed by the Department of Information Management and the Digital Humanities Research Center of Peking University, which focuses on the tasks of Named Entity Recognition (NER) and Relation Extraction (RE) for ancient Chinese historical documents. This dataset covers historical documents spanning 13 dynasties from 91 BCE to 1739 CE, containing a total of 14,194 entities and 8,609 relations. During its construction, the research team defined four entity types and twelve relation types based on the content and linguistic features of historical documents, and conducted data annotation with detailed annotation guidelines. The main application scenarios of CHisIEC are focused on the research of ancient Chinese history, aiming to solve information extraction problems in historical documents through structured analysis.
提供机构:
北京大学信息管理系
创建时间:
2024-03-22
搜集汇总
数据集介绍
main_image_url
构建方式
为了推动中国古代历史与文化研究,CHisIEC数据集应运而生。该数据集的构建始于对《二十四史》中13个历史时期书籍的精选,这些书籍跨越了1830年的悠久历史。随后,结合历史文献的内容和语言特点,定义了四种实体类型和十二种关系类型。最后,邀请标注者根据详细的标注指南进行标注,形成了包含14,194个实体和8,609个关系的标注数据集。
特点
CHisIEC数据集的特色在于其广泛的时间跨度和文本异质性,涵盖了中国古代历史的多个朝代,真实地反映了历史文献的多样性。数据集包含四种不同的实体类型和十二种关系类型,共计超过130K个标记的字符。此外,数据集在标注过程中采用了多人标注和专业审核的模式,确保了标注的一致性和质量。
使用方法
使用CHisIEC数据集时,首先需要理解其标注规范和实体类型定义。数据集已分为训练集、验证集和测试集,便于模型训练和评估。对于命名实体识别(NER)和关系抽取(RE)任务,可以采用序列标注和关系分类的方法进行模型训练。同时,数据集也支持对大型语言模型(LLM)进行微调和上下文学习,以评估其在古代中国历史领域的应用能力。
背景与挑战
背景概述
在数字人文领域中,自然语言处理(NLP)对于历史与文化遗产文本的结构化分析至关重要,特别是在命名实体识别(NER)和关系抽取(RE)方面。为了促进中国古代历史与文化的研究,北京大学信息管理系、北京大学数字人文研究中心、北京大学外国语学院及北京大学人工智能研究院的研究人员共同构建了“中国历史信息抽取语料库”(CHisIEC)。该数据集于2024年4月发布,旨在为NER和RE任务提供资源,以推动该领域的研究。CHisIEC涵盖了13个朝代,跨越1830年的历史时间线,体现了中国古代文献的广泛时间跨度和文本异质性。该数据集包含四种不同的实体类型和十二种关系类型,总计14,194个实体和8,609个关系。研究团队进行了广泛的实验,以验证该数据集的鲁棒性和通用性,包括使用不同规模和范例的模型,并评估大型语言模型(LLMs)在古代中国历史相关任务中的能力。
当前挑战
CHisIEC数据集面临的挑战主要包括:1) 古代中国历史文献的领域问题,由于这些文献跨越了广阔的时间范围和表现出语言异质性,因此在信息抽取方面存在独特的挑战;2) 构建数据集的过程中,研究人员需要从《二十四史》中选择具有代表性的13本历史书籍作为原始数据,并定义特定的实体类型和关系类型,以及制定详细的标注指南。此外,由于古代汉语与现代汉语在词汇和语法上的差异,以及历史文献的多样性,标注过程需要严格的质量控制和一致性保证。
常用场景
经典使用场景
CHisIEC数据集被广泛用于古代中国历史领域的信息抽取任务,包括命名实体识别(NER)和关系抽取(RE)。它特别适用于训练和评估针对古代汉语文本的深度学习模型,旨在理解和提取历史文献中的关键信息。该数据集的时间跨度长,文本异构性高,使得模型能够更好地适应不同历史时期的语言特点。通过使用CHisIEC,研究者可以构建更加精确和全面的历史知识图谱,从而为历史研究和文化遗产保护提供有力支持。
实际应用
CHisIEC数据集在实际应用中,可以帮助构建更加精确和全面的历史知识图谱,从而为历史研究和文化遗产保护提供有力支持。通过使用该数据集训练的模型,可以自动化地识别和提取古代汉语文献中的关键信息,如人物、地点、官职和书籍等,以及它们之间的关系。这对于构建历史数据库、开发智能搜索引擎和历史文本的语义分析工具具有重要意义。此外,CHisIEC数据集还可以用于教育和研究目的,帮助学者更好地理解和分析古代中国历史。
衍生相关工作
CHisIEC数据集的发布促进了古代汉语信息抽取领域的研究,衍生出了一系列相关工作。例如,一些研究者使用该数据集来训练和评估预训练语言模型(PLM)和大型语言模型(LLM)在古代汉语信息抽取任务上的性能。这些研究结果表明,PLM在NER任务上表现优于LLM,而LLM在RE任务上表现较好。此外,一些研究者还探索了使用LLM进行少样本学习和零样本学习的方法,以解决古代汉语信息抽取任务中的数据稀缺问题。这些研究不仅推动了古代汉语信息抽取技术的发展,也为其他领域的自然语言处理研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务