AAE.tsv, IndE.tsv

github2023-07-15 更新2024-05-31 收录

下载链接：

https://github.com/slanglab/CGEdit

下载链接

链接失效反馈

官方服务：

资源简介：

用于AAE和IndE的训练集，通过CGEdit方法生成

The training set for AAE and IndE, generated through the CGEdit method.

创建时间：

2022-09-13

原始信息汇总

数据集概述

数据集内容

数据文件:
- CGEdit/:
  - AAE.tsv: 用于AAE（非洲裔美国英语）的训练集，通过CGEdit方法生成。
  - IndE.tsv: 用于IndE（印度英语）的训练集，通过CGEdit方法生成。
- CGEdit-ManualGen/:
  - AAE.tsv: 用于AAE的训练集，通过ManualGen和CGEdit方法生成。
  - IndE.tsv: 用于IndE的训练集，通过ManualGen和CGEdit方法生成。

代码文件

code/:
- train.py: 用于微调BERT变体模型的代码。
- eval.py: 用于评估微调模型的代码。
- preprocessCORAAL.py: 用于预处理CORAAL转录文件的代码，仅用于论文中的外部评估（参见第6节）。
- tutorial.ipynb: 教程，指导如何使用微调模型。

模型训练与评估

训练:
- 使用train.py，需指定对比集生成方法（CGEdit或CGEdit-ManualGen）和语言（AAE或IndE）。
评估:
- 使用eval.py，需指定训练时使用的对比集生成方法、语言和测试集文件名。

模型使用

AAE模型:
- 可通过Google Colab访问微调模型，用于检测17种非洲裔美国英语特征。
IndE模型:
- 需联系作者获取微调模型，用于检测10种印度英语特征。

搜集汇总

数据集介绍

构建方式

AAE.tsv和IndE.tsv数据集的构建采用了CGEdit方法，该方法通过对比集生成技术，针对低资源英语变体中的形态句法特征进行检测。具体而言，数据集通过自动化编辑和手动生成相结合的方式，生成了非洲裔美国英语（AAE）和印度英语（IndE）的训练集。这一过程不仅依赖于原始语料库的预处理，还通过对比集生成方法增强了数据的多样性和代表性，从而为模型训练提供了高质量的输入。

特点

AAE.tsv和IndE.tsv数据集的特点在于其专注于低资源英语变体的形态句法特征检测。AAE.tsv包含了17个非洲裔美国英语的形态句法特征，而IndE.tsv则涵盖了10个印度英语的形态句法特征。这些数据集通过对比集生成方法，显著提升了数据的多样性和复杂性，使得模型能够更好地捕捉到不同英语变体之间的细微差异。此外，数据集还提供了手动生成和自动化编辑相结合的版本，进一步增强了数据的准确性和实用性。

使用方法

使用AAE.tsv和IndE.tsv数据集时，用户可以通过提供的训练脚本`train.py`对BERT变体模型进行微调。训练时需指定对比集生成方法（如CGEdit或CGEdit-ManualGen）以及目标语言（AAE或IndE）。评估阶段则通过`eval.py`脚本对测试集进行预测，输出每个语言特征的预测结果。此外，用户还可以通过Google Colab笔记本或本地`tutorial.ipynb`文件，访问并使用预训练的模型进行语言学特征检测，从而快速应用于实际任务中。

背景与挑战

背景概述

AAE.tsv和IndE.tsv数据集由Tessa Masis、Brendan O'Connor等研究人员于2022年创建，旨在支持低资源英语变体的形态句法特征检测研究。该数据集是论文《Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties》的核心组成部分，发表于COLING会议的Field Matters Workshop。数据集通过CGEdit方法生成，涵盖了非洲裔美国英语（AAE）和印度英语（IndE）的形态句法特征，为语言学和自然语言处理领域提供了重要的研究资源。其研究背景植根于对低资源语言变体的深入分析，推动了语言多样性和计算语言学交叉领域的发展。

当前挑战

AAE.tsv和IndE.tsv数据集在构建和应用过程中面临多重挑战。首先，低资源语言变体的形态句法特征检测本身具有复杂性，由于语言变体的多样性和非标准性，传统模型难以准确捕捉其特征。其次，数据集的生成依赖于CGEdit方法，该方法需要结合语料库和人工生成技术，确保数据的代表性和准确性，这对数据标注和模型训练提出了较高要求。此外，数据集的评估依赖于外部语料库（如CORAAL），其预处理和适配过程增加了技术难度。这些挑战不仅体现在数据构建阶段，也贯穿于模型训练和评估的全过程，对研究者的技术能力和资源投入提出了较高要求。

常用场景

经典使用场景

AAE.tsv和IndE.tsv数据集在低资源英语变体的形态句法特征检测中具有重要应用。通过CGEdit方法生成的训练集，研究者能够有效地构建对比集，用于检测非洲裔美国英语（AAE）和印度英语（IndE）中的特定语言特征。这些数据集为语言学家和计算语言学家提供了一个标准化的工具，用于分析和比较不同英语变体之间的差异。

解决学术问题

该数据集解决了低资源语言变体在形态句法特征检测中的挑战。传统的语言模型往往依赖于大量标注数据，而AAE.tsv和IndE.tsv通过对比集生成方法，显著减少了对大规模标注数据的依赖。这一创新不仅提高了模型在低资源环境下的表现，还为语言变体的研究提供了新的方法论支持，推动了语言多样性和语言公平性的研究。

衍生相关工作

基于AAE.tsv和IndE.tsv数据集，研究者们已经开发了多种经典的语言模型和工具。例如，通过微调BERT模型，研究者能够高效地检测AAE和IndE中的特定语言特征。这些工作不仅推动了低资源语言变体的研究，还为其他语言变体的研究提供了可借鉴的方法和工具，进一步丰富了计算语言学的研究领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集