HunDraCor

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/dracor-org/hundracor

下载链接

链接失效反馈

官方服务：

资源简介：

匈牙利戏剧语料库（HunDraCor）基于ELTE戏剧语料库，提供了匈牙利戏剧文本的集合，用于研究和分析。

The Hungarian Drama Corpus (HunDraCor), based on the ELTE Drama Corpus, offers a collection of Hungarian drama texts for research and analysis.

创建时间：

2021-09-24

原始信息汇总

HunDraCor 数据集概述

数据集来源

HunDraCor 数据集基于 ELTE Drama Corpus。

数据集更新

HunDraCor 数据集可以通过集成工作流程从 ELTE 源仓库的 level1 文件进行更新，执行一些小的转换以使其符合 DraCor 标准。

更新前提条件

需要以下工具：
- saxon XSLT 处理器
- xmlformat XML 文档格式化工具

更新步骤

从 HunDraCor 数据集根目录运行 elte2dracor 脚本即可更新整个数据集： sh ./elte2dracor
也可选择从 dracor-org 分支导入文件，使用 --dracor 开关： sh ./elte2dracor --dracor
可以更新单个文件，例如： sh ./elte2dracor ./source-repo/level1/Madach_ACivilizator.xml

搜集汇总

数据集介绍

构建方式

HunDraCor数据集的构建基于ELTE Drama Corpus，通过集成工作流程实现从ELTE源仓库的level1文件中提取数据，并进行必要的转换以适应DraCor格式。具体而言，该数据集利用XSLT（可扩展样式表语言转换）技术，依赖于Saxon XSLT处理器和xmlformat XML文档格式化工具，对原始数据进行处理和格式化，从而生成符合DraCor标准的戏剧文本数据集。

使用方法

使用HunDraCor数据集时，用户需首先确保系统中安装了Saxon XSLT处理器和xmlformat工具。随后，通过运行`elte2dracor`脚本，用户可以选择更新整个数据集或单独处理特定文件。脚本支持从ELTE Drama Corpus的level1目录或dracor-org分支导入数据，并自动执行所需的XSLT转换，生成符合DraCor格式的戏剧文本数据。

背景与挑战

背景概述

匈牙利戏剧语料库（HunDraCor）是基于ELTE戏剧语料库构建的，由匈牙利罗兰大学（ELTE）的一组研究人员于2022年创建。该语料库的核心研究问题在于对匈牙利戏剧文本进行系统性整理与数字化处理，旨在为戏剧研究领域提供一个结构化的数据资源。通过整合ELTE戏剧语料库的level1文件，HunDraCor实现了对戏剧文本的自动化转换与格式化，使其符合DraCor标准。这一工作不仅推动了匈牙利戏剧研究的数字化进程，也为全球范围内的戏剧文本分析提供了新的工具和资源。

当前挑战

HunDraCor的构建过程中面临了多个挑战。首先，如何从ELTE戏剧语料库的原始文件中提取并转换为符合DraCor标准的格式，涉及复杂的XSLT转换技术。其次，语料库的更新机制需要确保数据的实时性和一致性，这对自动化流程的设计提出了较高要求。此外，戏剧文本的多样性和复杂性，包括不同历史时期的文本风格和语言变化，也为语料库的统一处理带来了挑战。最后，如何确保语料库的长期维护和扩展，使其能够适应未来研究需求，也是一个重要的考虑因素。

常用场景

经典使用场景

HunDraCor数据集在戏剧文本分析领域展现了其独特的价值。通过整合匈牙利戏剧文本，该数据集为研究者提供了丰富的语料资源，特别适用于对戏剧文本的结构、角色互动及情节发展进行深入分析。其经典使用场景包括对戏剧文本的自动标注、角色关系网络的构建以及情感分析等，这些应用为戏剧学研究提供了新的视角和方法。

解决学术问题

HunDraCor数据集在解决戏剧文本分析中的多个学术问题上具有显著意义。首先，它为研究者提供了统一的文本格式，解决了不同戏剧文本格式不一致的问题。其次，通过其结构化的数据，研究者能够更精确地分析角色间的互动和情节发展，从而推动了戏剧文本的形式化分析研究。此外，该数据集还为跨文化戏剧比较研究提供了宝贵的资源，促进了国际学术交流。

实际应用

在实际应用中，HunDraCor数据集被广泛应用于戏剧教育、文化传承及数字人文项目。例如，教育机构可以利用该数据集进行戏剧文本的教学与研究，帮助学生更好地理解戏剧结构和角色关系。文化机构则可以通过该数据集进行戏剧作品的数字化保存和展示，促进文化遗产的保护与传播。此外，数字人文项目可以利用该数据集进行自动化分析，提升研究效率。

数据集最近研究