juletxara/pawsx_mt
收藏Hugging Face2023-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/pawsx_mt
下载链接
链接失效反馈官方服务:
资源简介:
PAWS-X 是一个跨语言的对抗性数据集,用于释义识别。该数据集是多语言的,包含多种不同模型大小的配置。数据集设计用于文本分类任务,特别是语义相似性分类和评分。数据集中包含多种语言的句子对,每个句子对都标有标签,指示它们是否是彼此的释义。数据集提供多种语言的分割,数据集的大小在10K到100K个示例之间。
PAWS-X 是一个跨语言的对抗性数据集,用于释义识别。该数据集是多语言的,包含多种不同模型大小的配置。数据集设计用于文本分类任务,特别是语义相似性分类和评分。数据集中包含多种语言的句子对,每个句子对都标有标签,指示它们是否是彼此的释义。数据集提供多种语言的分割,数据集的大小在10K到100K个示例之间。
提供机构:
juletxara
原始信息汇总
数据集概述
基本信息
- 名称: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification
- 语言: 多语言(包括英语)
- 许可证: 其他
- 任务类别: 文本分类
- 任务ID:
- 语义相似度分类
- 语义相似度评分
- 文本评分
- 多输入文本分类
- PapersWithCode ID: paws-x
- 标签: 释义识别
数据集结构
- 特征:
- id: 整数类型 (int32)
- sentence1: 字符串类型 (string)
- sentence2: 字符串类型 (string)
- label: 分类标签,包括 0 和 1
数据集配置和大小
- 配置名称: 多种配置,包括 nllb-200-distilled-600M, nllb-200-distilled-1.3B, nllb-200-1.3B, nllb-200-3.3B, xglm-564M, xglm-1.7B, xglm-2.9B, xglm-4.5B, xglm-7.5B, bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, llama-7B, llama-13B, llama-30B, RedPajama-INCITE-Base-3B-v1, RedPajama-INCITE-7B-Base, open_llama_3b, open_llama_7b, open_llama_13b, xgen-7b-4k-base, xgen-7b-8k-base, xgen-7b-8k-inst, open_llama_7b_v2, falcon-7b, polylm-1.7b, polylm-13b, polylm-multialpaca-13b
- 大小类别: 10K<n<100K
- 下载大小 和 数据集大小: 根据不同配置变化,例如:
- nllb-200-distilled-600M: 下载大小 2704143, 数据集大小 2837649
- nllb-200-distilled-1.3B: 下载大小 2706871, 数据集大小 2840377
- nllb-200-1.3B: 下载大小 2712821, 数据集大小 2846327
- nllb-200-3.3B: 下载大小 2731969, 数据集大小 2865475
- xglM-564M: 下载大小 2605271, 数据集大小 2738777
- xglM-1.7B: 下载大小 2591890, 数据集大小 2725396
- xglM-2.9B: 下载大小 2545055, 数据集大小 2678561
- xglM-4.5B: 下载大小 2750329, 数据集大小 2883835
- xglM-7.5B: 下载大小 2618964, 数据集大小 2752470
- bloom-560m: 下载大小 2428701, 数据集大小 2562207
- bloom-1b1: 下载大小 2292431, 数据集大小 2425937
- bloom-1b7: 下载大小 2515688, 数据集大小 2649194
- bloom-3b: 下载大小 2522408, 数据集大小 2655914
- bloom-7b1: 下载大小 2607425, 数据集大小 2740931
- llama-7B: 下载大小 2716930, 数据集大小 2850436
- llama-13B: 下载大小 2661465, 数据集大小 2794971
- llama-30B: 下载大小 2738811, 数据集大小 2872317
- RedPajama-INCITE-Base-3B-v1: 下载大小 2711927, 数据集大小 2845433
- RedPajama-INCITE-7B-Base: 下载大小 2668599, 数据集大小 2802105
- open_llama_3b: 下载大小 2665964, 数据集大小 2799470
- open_llama_7b: 下载大小 2642350, 数据集大小 2775856
- open_llama_13b: 下载大小 2665327, 数据集大小 2798833
- xgen-7b-4k-base: 下载大小 2665958, 数据集大小 2799464
- xgen-7b-8k-base: 下载大小 2674381, 数据集大小 2807887
- xgen-7b-8k-inst: 下载大小 2780237, 数据集大小 2913743
- open_llama_7b_v2: 下载大小 2670965, 数据集大小 2804471
- falcon-7b: 下载大小 2495121, 数据集大小 2628627
- polylm-1.7b: 下载大小 2566035, 数据集大小 2699541
- polylm-13b: 下载大小 2678338, 数据集大小 2811844
- polylm-multialpaca-13b: 下载大小 2678338, 数据集大小 2811844
数据集来源
- 源数据集: 扩展自其他数据集,如 other-paws
注释和语言创建者
- 注释创建者: 专家生成和机器生成
- 语言创建者: 专家生成和机器生成



