nanakonoda/xnli_cm_sample

Name: nanakonoda/xnli_cm_sample
Creator: nanakonoda
Published: 2023-05-01 22:13:21
License: 暂无描述

Hugging Face2023-05-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nanakonoda/xnli_cm_sample

下载链接

链接失效反馈

官方服务：

资源简介：

XNLI Code-Mixed Corpus (Sampled) 数据集是一个多语言数据集，包含英语、德语和法语，以及使用等价约束理论和矩阵语言理论生成的代码混合文本。该数据集用于二元模式分类（口语与书面语）。数据集的结构包括数据实例、字段、分割和其他统计信息。数据集的创建基于XNLI平行语料库，并通过CodeMixed Text Generator生成代码混合文本，每个原始英语句子最多采样30个句子。

提供机构：

nanakonoda

原始信息汇总

数据集概述

名称: XNLI Code-Mixed Corpus (Sampled)

语言: 英语、德语、法语、德英混合语（Equivalence Constraint Theory）、德英混合语（Matrix Language Theory）、法英混合语（Equivalence Constraint Theory）、法英混合语（Matrix Language Theory）

多语言性: 多语言

数据集大小: 1M<n<10M

来源数据集: 扩展自xnli

任务类别: 文本分类

任务ID: 无

注释创建者: 专家生成

许可证: 无

数据集结构

数据实例

json { "text": "And he said , Mama , I m home", "label": 0 }

数据字段

text: 字符串类型的句子
label: 整数类型的二元标签（0: 口语, 1: 书面语）

数据分割

monolingual:
- train: 2490个样本（英语、德语、法语）
- test: 5007个样本（英语、德语、法语）
de_ec:
- train: 2490个样本（英语、德语、法语）
- test: 14543个样本（德英混合语，Equivalence Constraint Theory）
de_ml:
- train: 2490个样本（英语、德语、法语）
- test: 12750个样本（德英混合语，Matrix Language Theory）
fr_ec:
- train: 2490个样本（英语、德语、法语）
- test: 18653个样本（法英混合语，Equivalence Constraint Theory）
fr_ml:
- train: 2490个样本（英语、德语、法语）
- test: 17381个样本（法英混合语，Matrix Language Theory）

其他统计

平均句子长度:
- monolingual:
  - train: 19.18714859437751
  - test: 19.321150389454765
- de_ec:
  - train: 19.18714859437751
  - test: 11.24314103004882
- de_ml:
  - train: 19.18714859437751
  - test: 12.159450980392156
- fr_ec:
  - train: 19.18714859437751
  - test: 12.26526564091567
- fr_ml:
  - train: 19.18714859437751
  - test: 13.486968528853346
标签分割:
- monolingual:
  - train: 0: 498, 1: 1992
  - test: 0: 1002, 1: 4005
- de_ec:
  - train: 0: 498, 1: 1992
  - test: 0: 2777, 1: 11766
- de_ml:
  - train: 0: 498, 1: 1992
  - test: 0: 2329, 1: 10421
- fr_ec:
  - train: 0: 498, 1: 1992
  - test: 0: 3322, 1: 15331
- fr_ml:
  - train: 0: 498, 1: 1992
  - test: 0: 2788, 1: 14593

数据集创建

数据集来源

XNLI Code-Mixed Corpus: https://huggingface.co/datasets/nanakonoda/xnli_cm
XNLI Parallel Corpus: https://huggingface.co/datasets/nanakonoda/xnli_parallel
原始数据: XNLI Corpus, https://github.com/facebookresearch/XNLI

数据集生成

使用CodeMixed Text Generator从XNLI Parallel Corpus生成代码混合语料库，每个原始英语句子最多采样30个句子。

生成工具

CodeMixed Text Generator: https://github.com/microsoft/CodeMixed-Text-Generator
论文: https://aclanthology.org/2021.eacl-demos.24

数据处理

从XNLI Parallel Corpus中移除了所有标点符号，除了撇号。

5,000+

优质数据集

54 个

任务类型

进入经典数据集