five

nanakonoda/xnli_cm_sample

收藏
Hugging Face2023-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nanakonoda/xnli_cm_sample
下载链接
链接失效反馈
官方服务:
资源简介:
XNLI Code-Mixed Corpus (Sampled) 数据集是一个多语言数据集,包含英语、德语和法语,以及使用等价约束理论和矩阵语言理论生成的代码混合文本。该数据集用于二元模式分类(口语与书面语)。数据集的结构包括数据实例、字段、分割和其他统计信息。数据集的创建基于XNLI平行语料库,并通过CodeMixed Text Generator生成代码混合文本,每个原始英语句子最多采样30个句子。
提供机构:
nanakonoda
原始信息汇总

数据集概述

名称: XNLI Code-Mixed Corpus (Sampled)

语言: 英语、德语、法语、德英混合语(Equivalence Constraint Theory)、德英混合语(Matrix Language Theory)、法英混合语(Equivalence Constraint Theory)、法英混合语(Matrix Language Theory)

多语言性: 多语言

数据集大小: 1M<n<10M

来源数据集: 扩展自xnli

任务类别: 文本分类

任务ID: 无

注释创建者: 专家生成

许可证: 无

数据集结构

数据实例

json { "text": "And he said , Mama , I m home", "label": 0 }

数据字段

  • text: 字符串类型的句子
  • label: 整数类型的二元标签(0: 口语, 1: 书面语)

数据分割

  • monolingual:
    • train: 2490个样本(英语、德语、法语)
    • test: 5007个样本(英语、德语、法语)
  • de_ec:
    • train: 2490个样本(英语、德语、法语)
    • test: 14543个样本(德英混合语,Equivalence Constraint Theory)
  • de_ml:
    • train: 2490个样本(英语、德语、法语)
    • test: 12750个样本(德英混合语,Matrix Language Theory)
  • fr_ec:
    • train: 2490个样本(英语、德语、法语)
    • test: 18653个样本(法英混合语,Equivalence Constraint Theory)
  • fr_ml:
    • train: 2490个样本(英语、德语、法语)
    • test: 17381个样本(法英混合语,Matrix Language Theory)

其他统计

  • 平均句子长度:

    • monolingual:
      • train: 19.18714859437751
      • test: 19.321150389454765
    • de_ec:
      • train: 19.18714859437751
      • test: 11.24314103004882
    • de_ml:
      • train: 19.18714859437751
      • test: 12.159450980392156
    • fr_ec:
      • train: 19.18714859437751
      • test: 12.26526564091567
    • fr_ml:
      • train: 19.18714859437751
      • test: 13.486968528853346
  • 标签分割:

    • monolingual:
      • train: 0: 498, 1: 1992
      • test: 0: 1002, 1: 4005
    • de_ec:
      • train: 0: 498, 1: 1992
      • test: 0: 2777, 1: 11766
    • de_ml:
      • train: 0: 498, 1: 1992
      • test: 0: 2329, 1: 10421
    • fr_ec:
      • train: 0: 498, 1: 1992
      • test: 0: 3322, 1: 15331
    • fr_ml:
      • train: 0: 498, 1: 1992
      • test: 0: 2788, 1: 14593

数据集创建

数据集来源

  • XNLI Code-Mixed Corpus: https://huggingface.co/datasets/nanakonoda/xnli_cm
  • XNLI Parallel Corpus: https://huggingface.co/datasets/nanakonoda/xnli_parallel
  • 原始数据: XNLI Corpus, https://github.com/facebookresearch/XNLI

数据集生成

使用CodeMixed Text Generator从XNLI Parallel Corpus生成代码混合语料库,每个原始英语句子最多采样30个句子。

生成工具

  • CodeMixed Text Generator: https://github.com/microsoft/CodeMixed-Text-Generator
  • 论文: https://aclanthology.org/2021.eacl-demos.24

数据处理

从XNLI Parallel Corpus中移除了所有标点符号,除了撇号。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作