19th century American literary orthovariant tokens

Name: 19th century American literary orthovariant tokens
Creator: 约翰斯·霍普金斯大学
Published: 2024-10-04 00:58:21
License: 暂无描述

arXiv2024-10-04 更新2024-10-05 收录

下载链接：

https://github.com/comp-int-hum/orthography-embedding-clustering

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“19世纪美国文学正字变体标记数据集”，由约翰斯·霍普金斯大学的数字人文中心创建。数据集包含4032个正字变体标记，这些标记带有新颖的人工注释方言组标签，旨在支持计算实验，探索文学上有意义的正字变异。数据集的创建过程包括从Project Gutenberg语料库中提取19世纪美国文学子集，并由作者根据说话角色的作者意图位置分配方言标签。该数据集主要应用于语言建模和文学分析领域，旨在解决文学正字变异对语言模型的影响问题。

This dataset, titled the Orthographic Variant Annotation Dataset of 19th-Century American Literature, was developed by the Digital Humanities Center at Johns Hopkins University. It comprises 4,032 orthographic variant annotations paired with novel manually annotated dialect group labels, intended to support computational experiments investigating literary-significant orthographic variation. The dataset creation workflow involves extracting a 19th-century American literature subset from the Project Gutenberg corpus, with dialect labels assigned based on the authorial intent associated with each speaking character. This dataset is primarily applied in the domains of language modeling and literary analysis, aiming to address the impact of literary orthographic variation on language models.

提供机构：

约翰斯·霍普金斯大学

创建时间：

2024-10-04

搜集汇总

数据集介绍

构建方式

该数据集由4032个19世纪美国文学中的正交变体词及其标准形式和句子级上下文组成，这些数据来源于Project Gutenberg语料库的一个子集。Craig Messner通过提供额外的'Dtag'标签扩展了标签集，这些标签基于作者意图的说话角色位置，主要代表感知到的种族、国籍和地区。数据集的构建过程中，Messner利用神经编辑距离模型将正交变体词与标准形式配对，并根据作者的意图为每个观察到的词分配Dtag标签。

特点

该数据集的一个显著特点是其包含了由人工注释的方言组标签，这些标签设计用于支持计算实验，探索文学上有意义的正字法变异。数据集中的Dtag标签集主要反映了感知到的种族、国籍和地区，其中最常见的标签是'backwoods'（BW），包含了来自东北部、西部和中平原的白人角色样本。此外，数据集还包括了其他频繁出现的标签，如'African American'（AA）、'intentionally archaic'（AR）、'Gaelic'（GA）和'German'（DE）。

使用方法

该数据集适用于多种计算实验，特别是那些旨在探索文学正字法变异对语言模型的影响的研究。研究者可以使用该数据集来训练和评估不同类型的语言模型，如BERT和CANINE，以分析这些模型在处理正交变体词时的表现。此外，数据集的相对和绝对嵌入集可以用于k-means聚类分析，以评估模型对方言变体的区分能力。通过这些实验，研究者可以深入理解正字法变异如何通过多维度的信息通道传达方言效果。

背景与挑战

背景概述

19世纪美国文学正字变体词数据集（19th century American literary orthovariant tokens）由约翰斯·霍普金斯大学的数字人文中心创建，主要研究人员包括Craig Messner和Tom Lippincott。该数据集的核心研究问题在于探索文学中有意义的正字变异，通过人工注释的方言组标签层，旨在支持计算实验，以揭示文学正字变异的多维信号路径。该数据集的创建不仅丰富了19世纪美国文学的研究工具，还为语言模型在处理文学文本中的正字变异提供了新的视角，对计算语言学和数字人文领域产生了深远影响。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，文学正字变异的复杂性使得模型在捕捉和区分不同方言效果时面临困难，尤其是在处理非系统性或不完全遵循音韵学和形态学的变异时。其次，数据集构建过程中，如何准确分配方言标签（Dtag）以反映作者意图和角色背景，是一个技术上的挑战。此外，模型在处理高莱文斯坦距离（LD）编辑对时的表现不佳，表明现有模型在捕捉细微语言差异方面仍有改进空间。

常用场景

经典使用场景

19世纪美国文学正字变体数据集的经典使用场景主要集中在计算语言学领域，特别是探索文学中有意义的正字变异。该数据集通过包含人工注释的方言组标签，为计算实验提供了基础，旨在揭示有意正字变异产生的方言效应如何通过多语言通道传达。研究者利用BERT和CANINE等上下文语言模型，分析了这些变异在词级和字符级上的表现，从而深入理解正字变异在文学中的作用。

衍生相关工作

基于该数据集，研究者们开展了一系列相关工作，包括使用BERT和CANINE模型进行正字变异的深入分析，以及探索不同标记化方案对模型表现的影响。此外，还有研究利用该数据集进行文本增强和错误生成，以测试模型在处理合成变体时的鲁棒性。这些工作不仅丰富了计算语言学的研究内容，也为后续的语言模型优化和文化研究提供了宝贵的数据支持。

数据集最近研究