five

1641 Depositions Corpus

收藏
github2019-04-11 更新2024-05-31 收录
下载链接:
https://github.com/munnellg/1641DepositionsCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
1641年证词集是一个包含8000份证词或目击者陈述、审查及相关材料的集合,总计19010页,装订成31卷。这些文件使用古英语书写,语言极其不规范。语言使用不一致,例如实体Devil有多种拼写变体,包括Diuill、Divil,没有现代拼写实例,古代命名惯例使得将实体解析为其现代等价物具有挑战性。此仓库包含从爱尔兰各地理分布区域选出的16份证词的注释子集。已对命名实体进行了标记和注释,并在可能的情况下提供了实体类型和来自DBpedia的消歧URI。数据集采用NIF格式。

The 1641 Depositions is a collection comprising 8,000 testimonies or witness statements, examinations, and related materials, totaling 19,010 pages bound into 31 volumes. These documents are written in Early Modern English, characterized by highly irregular language usage. The language exhibits inconsistencies, such as multiple spelling variants for the entity 'Devil', including 'Diuill' and 'Divil', with no instances of modern spelling. The ancient naming conventions make it challenging to parse entities into their modern equivalents. This repository contains an annotated subset of 16 testimonies selected from various geographical regions across Ireland. Named entities have been tagged and annotated, with entity types and disambiguation URIs from DBpedia provided where possible. The dataset is formatted in NIF.
创建时间:
2019-03-31
原始信息汇总

数据集概述

数据集名称

1641 Depositions Corpus

数据集内容

  • 规模:包含16份证词的子集,选自爱尔兰各地理分布区域。
  • 特点:证词使用古英语,语言不一致,如实体“Devil”有多种拼写变体。
  • 格式:数据以NIF格式存储。
  • 标注:实体已进行标注,包括实体类型和可能的DBpedia URI进行消歧。

数据集详情

  • 原始材料:共有8,000份证词或目击者陈述,总计19,010页,装订成31卷。
  • 语言特性:使用古英语,存在语言噪声,命名实体的解析至现代等价物具有挑战性。
搜集汇总
数据集介绍
main_image_url
构建方式
1641 Depositions Corpus的构建,采取了对爱尔兰地区地理分布上具有代表性的16份证词进行精选的方式。这些证词来源于8000份原始证词和证人陈述,经过整理,涵盖了19010页,共装订成31卷。该数据集以古英语编写,语言使用存在较大不一致性,为处理提供了极高的挑战。数据集中的命名实体标注,通过DBpedia的URI进行了可能的消歧和实体类型标注。
使用方法
使用1641 Depositions Corpus数据集,首先需要了解其NIF格式,以便正确解析和利用数据。用户可以通过处理标注的实体类型和DBpedia URI来进行数据挖掘和知识发现,同时,该数据集也可以作为自然语言处理和历史语言学研究的基础语料库。针对古英语的特殊性,使用时可能需要对文本进行额外的预处理和清洗。
背景与挑战
背景概述
1641 Depositions Corpus是一份珍贵的历史文献资料,汇集了8000份证人陈述、审问记录及相关材料,总计19010页,装订成31卷。该数据集的创建可追溯至17世纪,由英国政府搜集,用以记录爱尔兰1641年起义的相关证词。由于其独特的语言特征,如古英语的书写习惯和不一致的用词,该数据集对于历史语言学研究具有极高的价值。主要研究人员为历史语言学家,他们致力于通过这批资料研究当时的社会、文化和法律状况,该数据集为相关领域的研究提供了重要的原始资料,推动了历史语言学、法律史学等领域的发展。
当前挑战
尽管1641 Depositions Corpus具有极高的研究价值,但在利用该数据集时也面临诸多挑战。首先,由于其语言具有时代性,古英语的使用与现代英语存在较大差异,给文本的解读和实体识别带来了困难。其次,数据集中命名实体的拼写不统一,例如“Devil”有多种拼写形式,这为实体归一化处理增添了复杂性。再者,数据集以NIF格式存储,需要对特定格式有深入了解的研究者才能有效利用。构建过程中,如何保持数据集的完整性与可访问性,同时确保实体识别和归一化的准确性,是当前面临的重大挑战。
常用场景
经典使用场景
在历史文献研究领域,1641 Depositions Corpus数据集的经典使用场景在于对17世纪爱尔兰历史事件进行深入分析与解读。该数据集包含了丰富的证人陈述和审查资料,为研究者提供了珍贵的原始文本资源,有助于重构历史事件的具体细节。
解决学术问题
该数据集解决了历史学研究中对古代文献资料整理与解读的难题,尤其是面对拼写不规范、命名习惯古老等问题时,提供了实体识别和消歧的标注,从而提升了研究效率与准确性。其对于语言演变、历史命名习惯的研究同样具有重要意义。
实际应用
在实际应用中,1641 Depositions Corpus数据集被广泛应用于历史教学、历史档案数字化以及历史事件的数字化重构等领域。通过对数据集中文本的分析,可以辅助历史学者更准确地理解历史文献,也为公众提供了接触历史的新途径。
数据集最近研究
最新研究方向
在历史文献研究领域,1641 Depositions Corpus作为一份珍贵的爱尔兰历史见证,其数字化及标注工作为文本挖掘和信息提取提供了新的视角。近期研究集中于运用自然语言处理技术,对这一数据集中不规范、多变的古英语语言特性进行解析,旨在探索高效的名实体识别和消歧策略。此类研究不仅有助于深化对17世纪爱尔兰社会、文化和历史的理解,同时也推动了古文献数字化处理技术的发展,对于历史语言学、计算语言学和信息科学等多个学科具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作