Shakespeares Comedies Annotations

github2023-01-07 更新2024-05-31 收录

下载链接：

https://github.com/rmatouschekh/shakespeare_comedy_annotations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含莎士比亚喜剧的注释，记录了谁与谁对话，并提供了一个处理器来分析这些数据。处理器目前设计用于输出关于女性角色讲话角色的信息，但可以适应其他目的。

This dataset comprises annotated records of Shakespearean comedies, detailing the dialogues between characters. It includes a processor designed to analyze these data, currently configured to output information regarding the speaking roles of female characters, yet adaptable for other purposes.

创建时间：

2022-02-26

原始信息汇总

数据集概述

数据集名称

Annotating Who Talks to Whom in Shakespeares Comedies

创建者

Rebecca Hicke

最后更新日期

01/06/2023

数据内容

数据集包含莎士比亚喜剧的文本文件，并进行了谁与谁对话的注释。此外，还提供了一个处理器，用于分析这些注释数据。

注释格式

每个对话部分下方有一个星号，后跟该部分对话所针对的角色列表，角色之间用逗号分隔。
当有多个说话者时，说话者名称用斜杠分隔，中间无空格。
如果对话是自言自语、独白或非针对舞台上的其他角色，则标记为Self/Exclamation。
如果角色在向舞台外的某人或无法听到他们说话的人讲话，也标记为Self/Exclamation。
被对话的角色如果未命名，则统一标记为Other。

代码输出

results.json: 包含每个剧目的名称、说话者、场景、说话者在场景中说话的百分比以及该说话者是否为剧中最具影响力的角色。
weighted_results.json: 与results.json类似，但每个对象包含说话者在场景中贡献的影响力百分比和说话者在一个场景中对话的角色数量。
self_results.json: 与results.json类似，但每个对象包含说话者在场景中作为独白、旁白或感叹词的说话百分比。
play_statistics.json: 包含每个剧目的名称、按影响力和说话量排名的角色列表，以及女性角色对总影响力的贡献百分比和说话百分比。

使用许可

本资源开放使用，但使用时请引用。

搜集汇总

数据集介绍

构建方式

该数据集基于莎士比亚喜剧的文本文件构建，文本来源于Folger莎士比亚图书馆的在线资源。作者Rebecca Hicke在Arden莎士比亚第三系列版本的补充信息基础上，对每部剧作进行了修订和调整。注释部分通过在每段台词下方添加星号，并列出该台词所指向的角色名称，角色之间用逗号分隔。当多个角色同时发言时，角色名称之间用斜杠分隔，且不包含空格。对于独白、旁白或感叹等不直接指向其他角色的台词，标注为Self/Exclamation。

特点

该数据集的特点在于其精细的台词指向标注，能够清晰展示莎士比亚喜剧中角色之间的对话关系。数据集不仅标注了台词的具体接收者，还区分了独白、旁白等特殊台词形式。此外，数据集还提供了对女性角色台词的分析功能，能够生成关于女性角色台词占比和影响力的详细统计结果。数据集的注释格式统一，便于后续分析和可视化处理。

使用方法

该数据集的使用方法主要通过附带的代码处理器实现。代码读取Annotations文件夹中的注释文件，并生成四个JSON格式的结果文件，分别包含角色台词占比、台词影响力、独白占比以及剧作统计信息。用户可以根据需要调整代码，以生成特定角色的分析结果或进行其他定制化分析。数据集的使用需遵循开源协议，并在使用时注明引用来源。

背景与挑战

背景概述

Shakespeares Comedies Annotations数据集由Rebecca Hicke于2023年1月6日创建，专注于对莎士比亚喜剧中角色对话的标注与分析。该数据集基于Folger Shakespeare Library提供的文本文件，并结合Arden Shakespeare Third Series的补充信息进行修订。其核心研究问题在于解析莎士比亚喜剧中角色之间的对话关系，特别是女性角色的台词分布及其影响力。通过这一数据集，研究者能够深入探讨莎士比亚作品中角色互动的复杂性，为文学研究、戏剧分析以及性别研究提供了宝贵的数据支持。

当前挑战

该数据集在构建过程中面临多重挑战。首先，莎士比亚喜剧的文本结构复杂，角色对话的标注需要精确识别每一段台词的接收者，尤其是在多角色对话或旁白、独白等特殊情境下。其次，数据集的标注依赖于特定格式的文本文件，尽管代码设计具有一定的通用性，但不同版本的文本格式差异可能导致数据处理困难。此外，数据集的核心目标之一是分析女性角色的台词影响力，这一任务需要对台词内容进行深入语义分析，以准确评估角色在剧情中的贡献。这些挑战不仅考验了数据标注的准确性，也对后续的数据处理和分析提出了更高的要求。

常用场景

经典使用场景

在文学研究和戏剧分析领域，Shakespeares Comedies Annotations数据集被广泛用于分析莎士比亚喜剧中角色之间的对话模式。通过标注每个对话的发言者和接收者，研究者能够深入探讨角色间的互动关系，揭示戏剧中的社交网络和权力结构。这种分析不仅限于学术研究，也为戏剧导演和演员提供了宝贵的参考，帮助他们更好地理解角色和情节。

解决学术问题

该数据集解决了文学研究中关于角色对话和互动的量化分析难题。通过精确标注每个对话的发言者和接收者，研究者能够量化角色在剧中的影响力，分析女性角色的发言比例，以及探讨不同角色在剧情发展中的作用。这种数据驱动的分析方法为传统的文学批评提供了新的视角，使得对莎士比亚作品的研究更加科学和系统化。

衍生相关工作

基于Shakespeares Comedies Annotations数据集，许多相关研究得以展开。例如，研究者开发了新的算法来进一步分析角色间的对话模式，探讨不同性别角色在剧中的发言比例和影响力。此外，该数据集还催生了一系列可视化工具，使得复杂的对话网络能够以直观的图形呈现，为文学研究和戏剧分析提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集