AAVE_SAE_Paired_Dataset
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/AAVE_SAE_Paired_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
社交媒体的发展鼓励了非裔美国人白话英语 (AAVE) 的书面使用,该语言传统上仅用于口头语境。然而,由于文本语料库的可用性,NLP 模型历来是使用主要的英语变体开发的,例如标准美式英语 (SAE)。我们通过创建意图等效的并行 AAVE/SAE 推文对的数据集来研究 GPT-2 在 AAVE 文本上的性能,从而隔离每对的句法结构和 AAVE 或 SAE 特定语言。我们使用预训练的情感分类器评估每个样本及其 GPT-2 生成的文本,发现虽然 AAVE 文本比 SAE 导致更多的负面情绪分类,但 GPT-2 的使用通常会增加两者的正面情绪的出现。此外,我们对使用 GPT-2 生成的 AAVE 和 SAE 文本进行人工评估,以比较上下文的严谨性和整体质量。
提供机构:
OpenDataLab
创建时间:
2022-05-23



