Genius1237/TyDiP
收藏Hugging Face2023-10-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Genius1237/TyDiP
下载链接
链接失效反馈官方服务:
资源简介:
TyDiP数据集是一个用于九种类型多样语言的礼貌分类的数据集,包含英语的训练集和测试集,以及九种其他语言(印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、南非荷兰语、匈牙利语)的测试数据。数据集的结构包括完整的数据集、二分类数据集和未标记的训练集。代码部分提供了训练和评估转换器模型的方法,并提供了预训练模型的来源。此外,数据集还包含了不同语言的礼貌策略处理方法和注释界面的使用说明。
提供机构:
Genius1237
原始信息汇总
数据集概述
数据集名称
- TyDiP: A Dataset for Politeness Classification in Nine Typologically Diverse Languages
数据集描述
- 语言: 包含英语、印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、阿非利卡语、匈牙利语。
- 语言创建者: 数据集语言来源于已有的资源。
- 许可证: 数据集遵循CC BY 4.0许可证。
- 多语言性: 数据集支持多语言。
- 大小: 数据集大小介于1K至10K之间。
- 任务类别: 文本分类。
- 标签: 礼貌、维基百科、多语言。
数据集内容
- 数据集包括一个英语训练集和一个英语测试集,这两个集合是从斯坦福礼貌语料库改编而来。
- 此外,还包括9种其他语言(印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、阿非利卡语、匈牙利语)的测试数据,这些数据是新标注的。
数据集文件结构
data/all: 包含完整的训练和测试集。data/binary: 过滤后的数据集,仅包含得分在顶部和底部25%的句子,用于论文中的训练和评估。data/unlabelled_train_sets: 未标注的训练集。
引用信息
- 使用英语训练或测试数据时,请引用斯坦福礼貌数据集。
- 使用9种目标语言的测试数据时,请引用TyDiP论文。



