Phase 1 Development Corpus

github2020-06-01 更新2024-05-31 收录

下载链接：

https://github.com/SharedTasksInTheDH/phase-1-development-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为SANTA共享任务（系统分析叙事文本通过注释）编制的开发语料库。它涵盖了尽可能多的相关现象，具有体裁、出版日期和文本长度的异质性。所有文本提供英文和德文版本，部分文本是第三种语言的翻译。数据集中的文本最长为2000字，为了减少对叙事层次使用的偏见，也包括了较长的文本，但提供了缩短版本。

This dataset is a development corpus compiled for the SANTA shared task (Systematic Analysis of Narrative Texts through Annotation). It encompasses a wide range of relevant phenomena, characterized by heterogeneity in genre, publication date, and text length. All texts are provided in both English and German, with some texts also available in a third language as translations. The texts in the dataset are up to 2000 words long; to mitigate bias towards the use of narrative levels, longer texts are also included but are provided in shortened versions.

创建时间：

2017-09-30

原始信息汇总

Phase 1 Development Corpus 概述

数据集描述

目的：为 SANTA（通过注释系统分析叙事文本的共享任务）提供开发语料库。
内容多样性：语料库涵盖了广泛的叙事现象，涉及多种体裁、出版日期和文本长度。不以文学代表性为指导原则。
语言：所有文本提供英语和德语版本，部分文本为第三语言的翻译。

文本特征

长度限制：语料库中最大文本长度为2000字。
特殊处理：为避免长度限制带来的叙事层次偏差，包含了一些更长的文本，并提供其缩短版本。缩短版本中删除了不影响整体叙事层次结构的重要部分的段落。

搜集汇总

数据集介绍

构建方式

Phase 1 Development Corpus的构建旨在为SANTA项目提供支持，该项目专注于通过注释对叙事文本进行系统分析。该语料库涵盖了多种文学现象，确保其多样性和广泛性。语料库中的文本在体裁、出版日期和文本长度上具有异质性，尽管并未以代表性为主要构建原则。所有文本均提供英文和德文版本，部分文本为从第三种语言翻译而来。为确保文本长度的一致性，语料库中的文本长度限制在2000字以内，但对于较长的文本，提供了经过删减的版本，删减部分不影响整体叙事结构。

特点

Phase 1 Development Corpus的特点在于其多样性和跨语言性。语料库涵盖了多种文学体裁和不同时期的文本，确保了其在叙事分析中的广泛适用性。文本长度的限制虽然引入了叙事层次使用上的偏差，但通过提供删减版本的长文本，有效平衡了这一限制。此外，语料库的双语特性（英文和德文）为跨语言叙事研究提供了便利，部分文本的翻译版本进一步扩展了其应用范围。

使用方法

Phase 1 Development Corpus的使用方法主要围绕叙事文本的系统分析展开。研究人员可以通过该语料库进行叙事层次、叙事结构以及跨语言叙事模式的深入研究。语料库中的文本长度限制和删减版本为研究提供了灵活性，使得用户可以根据研究需求选择合适的文本进行分析。此外，双语文本的存在为跨语言比较研究提供了基础，用户可以通过对比不同语言版本的叙事结构，探索文化差异对叙事表达的影响。

背景与挑战

背景概述

Phase 1 Development Corpus 是 SANTA（系统化叙事文本分析共享任务）项目的一部分，旨在通过标注对叙事文本进行系统分析。该数据集由多个研究机构合作开发，主要面向文学和语言学领域的研究人员。数据集涵盖了多种文学体裁、出版日期和文本长度，力求捕捉叙事文本中的多样化现象。所有文本均以英语和德语提供，部分文本为从第三种语言翻译而来。该数据集的创建时间为2017年，其核心研究问题在于如何通过系统化的标注方法揭示叙事文本中的结构特征和叙事层次。这一数据集为叙事分析和计算文学研究提供了重要的基础资源，推动了相关领域的研究进展。

当前挑战

Phase 1 Development Corpus 在构建过程中面临多重挑战。首先，文本的多样性和异质性使得标注工作复杂化，尤其是在跨语言和跨文化背景下，如何确保标注的一致性和准确性成为关键问题。其次，文本长度的限制（最大2000字）可能导致叙事层次分析的偏差，尽管通过删减部分段落以保留叙事结构，但仍可能影响整体分析结果。此外，由于数据集并未以代表性为构建原则，其适用性和泛化能力可能受到限制，特别是在针对特定文学体裁或历史时期的叙事分析时。这些挑战不仅反映了叙事文本分析的复杂性，也为未来研究提供了改进方向。

常用场景

经典使用场景

Phase 1 Development Corpus 数据集主要用于叙事文本的系统分析研究，特别是在文学和语言学领域。该数据集通过提供多样化的文本样本，涵盖了不同体裁、出版年代和文本长度的叙事作品，为研究者提供了一个丰富的实验平台。经典的使用场景包括叙事结构的自动识别、叙事层次的标注与分析，以及跨语言叙事模式的比较研究。

衍生相关工作

基于 Phase 1 Development Corpus 数据集，许多经典研究工作得以展开。例如，研究者开发了基于机器学习的叙事层次识别算法，并发表了多篇关于跨语言叙事模式分析的论文。此外，该数据集还催生了一系列叙事文本标注工具的开发，这些工具进一步推动了叙事分析领域的技术进步。相关研究不仅丰富了叙事学的理论框架，也为自然语言处理领域提供了新的研究方向。

数据集最近研究