five

AAE.tsv, IndE.tsv

收藏
github2023-07-15 更新2024-05-31 收录
下载链接:
https://github.com/slanglab/CGEdit
下载链接
链接失效反馈
官方服务:
资源简介:
用于AAE和IndE的训练集,通过CGEdit方法生成

The training set for AAE and IndE, generated through the CGEdit method.
创建时间:
2022-09-13
原始信息汇总

数据集概述

数据集内容

  • 数据文件:
    • CGEdit/:
      • AAE.tsv: 用于AAE(非洲裔美国英语)的训练集,通过CGEdit方法生成。
      • IndE.tsv: 用于IndE(印度英语)的训练集,通过CGEdit方法生成。
    • CGEdit-ManualGen/:
      • AAE.tsv: 用于AAE的训练集,通过ManualGen和CGEdit方法生成。
      • IndE.tsv: 用于IndE的训练集,通过ManualGen和CGEdit方法生成。

代码文件

  • code/:
    • train.py: 用于微调BERT变体模型的代码。
    • eval.py: 用于评估微调模型的代码。
    • preprocessCORAAL.py: 用于预处理CORAAL转录文件的代码,仅用于论文中的外部评估(参见第6节)。
    • tutorial.ipynb: 教程,指导如何使用微调模型。

模型训练与评估

  • 训练:
    • 使用train.py,需指定对比集生成方法(CGEdit或CGEdit-ManualGen)和语言(AAE或IndE)。
  • 评估:
    • 使用eval.py,需指定训练时使用的对比集生成方法、语言和测试集文件名。

模型使用

  • AAE模型:
    • 可通过Google Colab访问微调模型,用于检测17种非洲裔美国英语特征。
  • IndE模型:
    • 需联系作者获取微调模型,用于检测10种印度英语特征。
搜集汇总
数据集介绍
main_image_url
构建方式
AAE.tsv和IndE.tsv数据集的构建采用了CGEdit方法,该方法通过对比集生成技术,针对低资源英语变体中的形态句法特征进行检测。具体而言,数据集通过自动化编辑和手动生成相结合的方式,生成了非洲裔美国英语(AAE)和印度英语(IndE)的训练集。这一过程不仅依赖于原始语料库的预处理,还通过对比集生成方法增强了数据的多样性和代表性,从而为模型训练提供了高质量的输入。
特点
AAE.tsv和IndE.tsv数据集的特点在于其专注于低资源英语变体的形态句法特征检测。AAE.tsv包含了17个非洲裔美国英语的形态句法特征,而IndE.tsv则涵盖了10个印度英语的形态句法特征。这些数据集通过对比集生成方法,显著提升了数据的多样性和复杂性,使得模型能够更好地捕捉到不同英语变体之间的细微差异。此外,数据集还提供了手动生成和自动化编辑相结合的版本,进一步增强了数据的准确性和实用性。
使用方法
使用AAE.tsv和IndE.tsv数据集时,用户可以通过提供的训练脚本`train.py`对BERT变体模型进行微调。训练时需指定对比集生成方法(如CGEdit或CGEdit-ManualGen)以及目标语言(AAE或IndE)。评估阶段则通过`eval.py`脚本对测试集进行预测,输出每个语言特征的预测结果。此外,用户还可以通过Google Colab笔记本或本地`tutorial.ipynb`文件,访问并使用预训练的模型进行语言学特征检测,从而快速应用于实际任务中。
背景与挑战
背景概述
AAE.tsv和IndE.tsv数据集由Tessa Masis、Brendan O'Connor等研究人员于2022年创建,旨在支持低资源英语变体的形态句法特征检测研究。该数据集是论文《Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties》的核心组成部分,发表于COLING会议的Field Matters Workshop。数据集通过CGEdit方法生成,涵盖了非洲裔美国英语(AAE)和印度英语(IndE)的形态句法特征,为语言学和自然语言处理领域提供了重要的研究资源。其研究背景植根于对低资源语言变体的深入分析,推动了语言多样性和计算语言学交叉领域的发展。
当前挑战
AAE.tsv和IndE.tsv数据集在构建和应用过程中面临多重挑战。首先,低资源语言变体的形态句法特征检测本身具有复杂性,由于语言变体的多样性和非标准性,传统模型难以准确捕捉其特征。其次,数据集的生成依赖于CGEdit方法,该方法需要结合语料库和人工生成技术,确保数据的代表性和准确性,这对数据标注和模型训练提出了较高要求。此外,数据集的评估依赖于外部语料库(如CORAAL),其预处理和适配过程增加了技术难度。这些挑战不仅体现在数据构建阶段,也贯穿于模型训练和评估的全过程,对研究者的技术能力和资源投入提出了较高要求。
常用场景
经典使用场景
AAE.tsv和IndE.tsv数据集在低资源英语变体的形态句法特征检测中具有重要应用。通过CGEdit方法生成的训练集,研究者能够有效地构建对比集,用于检测非洲裔美国英语(AAE)和印度英语(IndE)中的特定语言特征。这些数据集为语言学家和计算语言学家提供了一个标准化的工具,用于分析和比较不同英语变体之间的差异。
解决学术问题
该数据集解决了低资源语言变体在形态句法特征检测中的挑战。传统的语言模型往往依赖于大量标注数据,而AAE.tsv和IndE.tsv通过对比集生成方法,显著减少了对大规模标注数据的依赖。这一创新不仅提高了模型在低资源环境下的表现,还为语言变体的研究提供了新的方法论支持,推动了语言多样性和语言公平性的研究。
衍生相关工作
基于AAE.tsv和IndE.tsv数据集,研究者们已经开发了多种经典的语言模型和工具。例如,通过微调BERT模型,研究者能够高效地检测AAE和IndE中的特定语言特征。这些工作不仅推动了低资源语言变体的研究,还为其他语言变体的研究提供了可借鉴的方法和工具,进一步丰富了计算语言学的研究领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作