nanakonoda/xnli_cm_sample
收藏Hugging Face2023-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nanakonoda/xnli_cm_sample
下载链接
链接失效反馈官方服务:
资源简介:
XNLI Code-Mixed Corpus (Sampled) 数据集是一个多语言数据集,包含英语、德语和法语,以及使用等价约束理论和矩阵语言理论生成的代码混合文本。该数据集用于二元模式分类(口语与书面语)。数据集的结构包括数据实例、字段、分割和其他统计信息。数据集的创建基于XNLI平行语料库,并通过CodeMixed Text Generator生成代码混合文本,每个原始英语句子最多采样30个句子。
提供机构:
nanakonoda
原始信息汇总
数据集概述
名称: XNLI Code-Mixed Corpus (Sampled)
语言: 英语、德语、法语、德英混合语(Equivalence Constraint Theory)、德英混合语(Matrix Language Theory)、法英混合语(Equivalence Constraint Theory)、法英混合语(Matrix Language Theory)
多语言性: 多语言
数据集大小: 1M<n<10M
来源数据集: 扩展自xnli
任务类别: 文本分类
任务ID: 无
注释创建者: 专家生成
许可证: 无
数据集结构
数据实例
json { "text": "And he said , Mama , I m home", "label": 0 }
数据字段
- text: 字符串类型的句子
- label: 整数类型的二元标签(0: 口语, 1: 书面语)
数据分割
- monolingual:
- train: 2490个样本(英语、德语、法语)
- test: 5007个样本(英语、德语、法语)
- de_ec:
- train: 2490个样本(英语、德语、法语)
- test: 14543个样本(德英混合语,Equivalence Constraint Theory)
- de_ml:
- train: 2490个样本(英语、德语、法语)
- test: 12750个样本(德英混合语,Matrix Language Theory)
- fr_ec:
- train: 2490个样本(英语、德语、法语)
- test: 18653个样本(法英混合语,Equivalence Constraint Theory)
- fr_ml:
- train: 2490个样本(英语、德语、法语)
- test: 17381个样本(法英混合语,Matrix Language Theory)
其他统计
-
平均句子长度:
- monolingual:
- train: 19.18714859437751
- test: 19.321150389454765
- de_ec:
- train: 19.18714859437751
- test: 11.24314103004882
- de_ml:
- train: 19.18714859437751
- test: 12.159450980392156
- fr_ec:
- train: 19.18714859437751
- test: 12.26526564091567
- fr_ml:
- train: 19.18714859437751
- test: 13.486968528853346
- monolingual:
-
标签分割:
- monolingual:
- train: 0: 498, 1: 1992
- test: 0: 1002, 1: 4005
- de_ec:
- train: 0: 498, 1: 1992
- test: 0: 2777, 1: 11766
- de_ml:
- train: 0: 498, 1: 1992
- test: 0: 2329, 1: 10421
- fr_ec:
- train: 0: 498, 1: 1992
- test: 0: 3322, 1: 15331
- fr_ml:
- train: 0: 498, 1: 1992
- test: 0: 2788, 1: 14593
- monolingual:
数据集创建
数据集来源
- XNLI Code-Mixed Corpus: https://huggingface.co/datasets/nanakonoda/xnli_cm
- XNLI Parallel Corpus: https://huggingface.co/datasets/nanakonoda/xnli_parallel
- 原始数据: XNLI Corpus, https://github.com/facebookresearch/XNLI
数据集生成
使用CodeMixed Text Generator从XNLI Parallel Corpus生成代码混合语料库,每个原始英语句子最多采样30个句子。
生成工具
- CodeMixed Text Generator: https://github.com/microsoft/CodeMixed-Text-Generator
- 论文: https://aclanthology.org/2021.eacl-demos.24
数据处理
从XNLI Parallel Corpus中移除了所有标点符号,除了撇号。



