five

Shakespeare His Contemporaries

收藏
github2017-04-21 更新2024-05-31 收录
下载链接:
https://github.com/JonathanReeve/corpus-SHC
下载链接
链接失效反馈
官方服务:
资源简介:
Shakespeare His Contemporaries是一个包含大约500个非莎士比亚的早期现代戏剧文本的数据集,时间跨度为1550至1660年。每个文本来源于EEBO-TCP转录,并提供了两种形式的文本:一种是经过语言学注释的,另一种是标准拼写未注释的版本。数据集中的文本未完全校对,但已通过本科生的协作编辑进行了初步整理。

The Shakespeare His Contemporaries dataset comprises approximately 500 early modern drama texts, excluding those by Shakespeare, spanning the years 1550 to 1660. Each text is sourced from EEBO-TCP transcriptions and is available in two formats: one with linguistic annotations and the other in a standard spelling version without annotations. Although the texts in the dataset have not been fully proofread, they have undergone preliminary organization through collaborative editing by undergraduate students.
创建时间:
2015-06-10
原始信息汇总

SHC数据集概述

数据集描述

  • 名称: Shakespeare His Contemporaries (SHC)
  • 范围: 约1550年至1660年
  • 内容: 包含约500部非莎士比亚的早期现代戏剧作品,截至2015年6月1日,共有509部作品。

数据来源

  • 文本来源: 主要来自EEBO-TCP(Early English Books Online - Text Creation Partnership)的转录,多数来自TCP Phase 1项目,部分来自TCP Phase 2。
  • 版权状态: 所有文本均属于公共领域。

数据格式

  • 版本1: 经过词法分析和语言学标注的版本。
  • 版本2: 标准拼写版本,无标注,由算法从标注版本衍生。

数据质量

  • 校对状态: 未完全校对,但经过本科生的协作编辑。
  • 协作工具: 使用Anotlex/Library Finder工具进行协作编辑和设计。
  • 修正记录: 学生的文本修正建议及其审核结果记录在每部戏剧的附录中。

数据结构

  • 角色映射: 每个戏剧中的每段台词都映射到全数据集唯一的ID。
  • 角色列表: 每部戏剧末尾包含机器生成的演员列表,列出每个说话角色的发言次数,按发言次数从高到低排序。
搜集汇总
数据集介绍
main_image_url
构建方式
SHC数据集的构建,是以Early Modern Drama领域内的非莎士比亚戏剧文本为核心,涵盖约1550年至1660年间的500部剧本。该数据集的文本来源于EEBO-TCP转录,其中大部分文本来自TCP Phase 1项目。在构建过程中,Proquest提供了TCP Phase 2项目中约36部剧本的添加权限。数据集内的每部文本均以两种形式存在:一种是经过分词和语言学标注的版本,另一种是未经标注的标准拼写版本。
特点
SHC数据集的特点在于,其包含了丰富的Early Modern Drama文本资源,为研究该时期的戏剧提供了宝贵的文本素材。所有的文本均处于公有领域,且每部剧本都经过初步的校对和协作编纂。此外,数据集中的每个角色对话都被映射到一个独一无二的ID,便于进行角色对话的统计与分析。
使用方法
用户在使用SHC数据集时,可以通过两种形式的文本进行研究和分析。数据集的使用不受限制,用户可以根据需要,对文本进行进一步的校对和标注。同时,数据集提供了一个机器生成的角色名单,其中包含了每个角色的对话次数,按照对话次数从多到少的顺序排列,便于用户对角色进行深入研究。
背景与挑战
背景概述
Shakespeare His Contemporaries(简称SHC)是一个涵盖早期现代戏剧(约1550年至1660年)的语料库,包含约500部非莎士比亚剧作。该数据集由西北大学的英语与古典文学名誉教授Martin Mueller负责创建,旨在为研究者提供一个全面的历史文学资源。SHC数据集的成立时间为2015年6月1日,当时收录了509个剧作标题。该数据集的文本源自EEBO-TCP转录,大部分文本来自于TCP Phase 1项目,Proquest公司慷慨地提供了来自TCP Phase 2项目的约36部剧作的使用权限。SHC的所有文本均属于公共领域,为学术界提供了宝贵的研究材料,对文学、历史、语言等领域的研究具有深远影响。
当前挑战
尽管SHC数据集为研究早期现代戏剧提供了丰富的资源,但在构建过程中也面临了诸多挑战。首先,数据集的构建过程中需要处理大量的文本校对工作,而这些文本尚未经过完整的校对流程。其次,数据集的文本校对依赖于合作校对工具Annolex/Library Finder的设计与优化,这一过程涉及到的协作校对挑战不容忽视。此外,数据集中每个剧作的演讲段落都被映射到一个全库唯一的ID,这一过程的技术实现和准确性保证也是一个挑战。尽管如此,SHC数据集仍在不断优化和完善中,以期为学术界提供更高质量的研究资源。
常用场景
经典使用场景
在文艺复兴时期戏剧研究领域,Shakespeare His Contemporaries数据集成为了一项不可或缺的资源。该数据集汇集了约500部非莎士比亚戏剧作品,时间跨度从1550年至1650年,为研究者提供了一个丰富的文本分析素材库。经典的使用场景包括对早期现代戏剧文本的语言学标注与标准化拼写版本的研究,以及基于字符演讲ID的文本分析。
实际应用
在实际应用中,SHC数据集不仅服务于学术研究,还为文学教育、文本校正工具的开发以及文化遗产的数字化保存提供了支持。通过该数据集,教育工作者能够更有效地教授早期现代戏剧课程,而开发者则可以基于数据集设计更先进的文本分析算法。
衍生相关工作
基于SHC数据集,已衍生出一系列相关研究工作,包括文本校正工具Annolex/Library Finder的开发,以及针对特定戏剧作品或作者的深入分析。这些相关工作进一步拓展了数据集的学术价值,推动了早期现代戏剧研究的多元化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作