five

juletxara/pawsx_mt

收藏
Hugging Face2023-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/pawsx_mt
下载链接
链接失效反馈
官方服务:
资源简介:
PAWS-X 是一个跨语言的对抗性数据集,用于释义识别。该数据集是多语言的,包含多种不同模型大小的配置。数据集设计用于文本分类任务,特别是语义相似性分类和评分。数据集中包含多种语言的句子对,每个句子对都标有标签,指示它们是否是彼此的释义。数据集提供多种语言的分割,数据集的大小在10K到100K个示例之间。

PAWS-X 是一个跨语言的对抗性数据集,用于释义识别。该数据集是多语言的,包含多种不同模型大小的配置。数据集设计用于文本分类任务,特别是语义相似性分类和评分。数据集中包含多种语言的句子对,每个句子对都标有标签,指示它们是否是彼此的释义。数据集提供多种语言的分割,数据集的大小在10K到100K个示例之间。
提供机构:
juletxara
原始信息汇总

数据集概述

基本信息

  • 名称: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification
  • 语言: 多语言(包括英语)
  • 许可证: 其他
  • 任务类别: 文本分类
  • 任务ID:
    • 语义相似度分类
    • 语义相似度评分
    • 文本评分
    • 多输入文本分类
  • PapersWithCode ID: paws-x
  • 标签: 释义识别

数据集结构

  • 特征:
    • id: 整数类型 (int32)
    • sentence1: 字符串类型 (string)
    • sentence2: 字符串类型 (string)
    • label: 分类标签,包括 0 和 1

数据集配置和大小

  • 配置名称: 多种配置,包括 nllb-200-distilled-600M, nllb-200-distilled-1.3B, nllb-200-1.3B, nllb-200-3.3B, xglm-564M, xglm-1.7B, xglm-2.9B, xglm-4.5B, xglm-7.5B, bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, llama-7B, llama-13B, llama-30B, RedPajama-INCITE-Base-3B-v1, RedPajama-INCITE-7B-Base, open_llama_3b, open_llama_7b, open_llama_13b, xgen-7b-4k-base, xgen-7b-8k-base, xgen-7b-8k-inst, open_llama_7b_v2, falcon-7b, polylm-1.7b, polylm-13b, polylm-multialpaca-13b
  • 大小类别: 10K<n<100K
  • 下载大小数据集大小: 根据不同配置变化,例如:
    • nllb-200-distilled-600M: 下载大小 2704143, 数据集大小 2837649
    • nllb-200-distilled-1.3B: 下载大小 2706871, 数据集大小 2840377
    • nllb-200-1.3B: 下载大小 2712821, 数据集大小 2846327
    • nllb-200-3.3B: 下载大小 2731969, 数据集大小 2865475
    • xglM-564M: 下载大小 2605271, 数据集大小 2738777
    • xglM-1.7B: 下载大小 2591890, 数据集大小 2725396
    • xglM-2.9B: 下载大小 2545055, 数据集大小 2678561
    • xglM-4.5B: 下载大小 2750329, 数据集大小 2883835
    • xglM-7.5B: 下载大小 2618964, 数据集大小 2752470
    • bloom-560m: 下载大小 2428701, 数据集大小 2562207
    • bloom-1b1: 下载大小 2292431, 数据集大小 2425937
    • bloom-1b7: 下载大小 2515688, 数据集大小 2649194
    • bloom-3b: 下载大小 2522408, 数据集大小 2655914
    • bloom-7b1: 下载大小 2607425, 数据集大小 2740931
    • llama-7B: 下载大小 2716930, 数据集大小 2850436
    • llama-13B: 下载大小 2661465, 数据集大小 2794971
    • llama-30B: 下载大小 2738811, 数据集大小 2872317
    • RedPajama-INCITE-Base-3B-v1: 下载大小 2711927, 数据集大小 2845433
    • RedPajama-INCITE-7B-Base: 下载大小 2668599, 数据集大小 2802105
    • open_llama_3b: 下载大小 2665964, 数据集大小 2799470
    • open_llama_7b: 下载大小 2642350, 数据集大小 2775856
    • open_llama_13b: 下载大小 2665327, 数据集大小 2798833
    • xgen-7b-4k-base: 下载大小 2665958, 数据集大小 2799464
    • xgen-7b-8k-base: 下载大小 2674381, 数据集大小 2807887
    • xgen-7b-8k-inst: 下载大小 2780237, 数据集大小 2913743
    • open_llama_7b_v2: 下载大小 2670965, 数据集大小 2804471
    • falcon-7b: 下载大小 2495121, 数据集大小 2628627
    • polylm-1.7b: 下载大小 2566035, 数据集大小 2699541
    • polylm-13b: 下载大小 2678338, 数据集大小 2811844
    • polylm-multialpaca-13b: 下载大小 2678338, 数据集大小 2811844

数据集来源

  • 源数据集: 扩展自其他数据集,如 other-paws

注释和语言创建者

  • 注释创建者: 专家生成和机器生成
  • 语言创建者: 专家生成和机器生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作