five

AAVE_SAE_Paired_Dataset

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/AAVE_SAE_Paired_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
社交媒体的发展鼓励了非裔美国人白话英语 (AAVE) 的书面使用,该语言传统上仅用于口头语境。然而,由于文本语料库的可用性,NLP 模型历来是使用主要的英语变体开发的,例如标准美式英语 (SAE)。我们通过创建意图等效的并行 AAVE/SAE 推文对的数据集来研究 GPT-2 在 AAVE 文本上的性能,从而隔离每对的句法结构和 AAVE 或 SAE 特定语言。我们使用预训练的情感分类器评估每个样本及其 GPT-2 生成的文本,发现虽然 AAVE 文本比 SAE 导致更多的负面情绪分类,但 GPT-2 的使用通常会增加两者的正面情绪的出现。此外,我们对使用 GPT-2 生成的 AAVE 和 SAE 文本进行人工评估,以比较上下文的严谨性和整体质量。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作