google-research-datasets/paws

Hugging Face2024-01-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/paws

下载链接

链接失效反馈

资源简介：

PAWS（Paraphrase Adversaries from Word Scrambling）数据集包含108,463个人工标注和656,000个噪声标注的句子对，强调了结构、上下文和词序信息在释义识别中的重要性。数据集分为两个子集，一个基于维基百科，另一个基于Quora Question Pairs（QQP）数据集。数据集包含三个配置：labeled_final、labeled_swap和unlabeled_final，分别包含不同数量和类型的句子对。labeled_final包含通过词交换和回译方法生成的句子对，所有句子对都有人工标注的释义和流畅性判断，并分为训练集、开发集和测试集。labeled_swap仅包含通过词交换生成的句子对，未包含回译生成的句子对，但同样具有高质量的人工标注。unlabeled_final包含噪声标注的句子对，未经过人工判断，可用作辅助训练集。

提供机构：

google-research-datasets

原始信息汇总

数据集概述

基本信息

数据集名称: PAWS: Paraphrase Adversaries from Word Scrambling
语言: 英语
许可证: 其他
多语言性: 单语
大小类别: 100K<n<1M, 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
任务ID: 语义相似度分类, 语义相似度评分, 文本评分, 多输入文本分类

数据集结构

配置名称

labeled_final
labeled_swap
unlabeled_final

特征

id: int32
sentence1: string
sentence2: string
label:
- class_label:
  - names:
    - 0: 0
    - 1: 1

数据分割

labeled_final
- train: 49401个样本, 12239938字节
- test: 8000个样本, 1987794字节
- validation: 8000个样本, 1975862字节
- 下载大小: 10899391字节
- 数据集大小: 16203594字节
labeled_swap
- train: 30397个样本, 7963619字节
- 下载大小: 5741756字节
- 数据集大小: 7963619字节
unlabeled_final
- train: 645652个样本, 157806476字节
- validation: 10000个样本, 2442165字节
- 下载大小: 112644285字节
- 数据集大小: 160248641字节

数据集创建

数据收集和标准化

方法: 基于单词交换和回译方法生成具有相同词袋但不同词序的句子对。

标注过程

标注者: 五个标注者进行二元判断，判断句子对是否为释义。
标注时间: 每个标注平均约24秒。

数据集使用注意事项

数据集的社会影响

讨论: 需要进一步信息。

数据集的偏见讨论

讨论: 需要进一步信息。

其他已知限制

讨论: 需要进一步信息。

附加信息

数据集贡献者

贡献者: @bhavitvyamalik

许可证信息

许可证: 数据集可自由使用，但建议注明Google LLC为数据源。

引用信息

@InProceedings{paws2019naacl, title = {{PAWS: Paraphrase Adversaries from Word Scrambling}}, author = {Zhang, Yuan and Baldridge, Jason and He, Luheng}, booktitle = {Proc. of NAACL}, year = {2019} }

搜集汇总

数据集介绍

背景与挑战

背景概述

PAWS数据集是一个用于同义句识别的高质量数据集，包含108,463个人工标注和656k噪声标注的句子对，特别关注词汇重叠但语义不同的情况。它基于Wikipedia和QQP构建，旨在提升模型在结构、上下文和词序信息建模上的能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集