google-research-datasets/paws
收藏Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/paws
下载链接
链接失效反馈资源简介:
PAWS(Paraphrase Adversaries from Word Scrambling)数据集包含108,463个人工标注和656,000个噪声标注的句子对,强调了结构、上下文和词序信息在释义识别中的重要性。数据集分为两个子集,一个基于维基百科,另一个基于Quora Question Pairs(QQP)数据集。数据集包含三个配置:labeled_final、labeled_swap和unlabeled_final,分别包含不同数量和类型的句子对。labeled_final包含通过词交换和回译方法生成的句子对,所有句子对都有人工标注的释义和流畅性判断,并分为训练集、开发集和测试集。labeled_swap仅包含通过词交换生成的句子对,未包含回译生成的句子对,但同样具有高质量的人工标注。unlabeled_final包含噪声标注的句子对,未经过人工判断,可用作辅助训练集。
提供机构:
google-research-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: PAWS: Paraphrase Adversaries from Word Scrambling
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小类别: 100K<n<1M, 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 文本分类
- 任务ID: 语义相似度分类, 语义相似度评分, 文本评分, 多输入文本分类
数据集结构
配置名称
- labeled_final
- labeled_swap
- unlabeled_final
特征
- id: int32
- sentence1: string
- sentence2: string
- label:
- class_label:
- names:
- 0: 0
- 1: 1
- names:
- class_label:
数据分割
- labeled_final
- train: 49401个样本, 12239938字节
- test: 8000个样本, 1987794字节
- validation: 8000个样本, 1975862字节
- 下载大小: 10899391字节
- 数据集大小: 16203594字节
- labeled_swap
- train: 30397个样本, 7963619字节
- 下载大小: 5741756字节
- 数据集大小: 7963619字节
- unlabeled_final
- train: 645652个样本, 157806476字节
- validation: 10000个样本, 2442165字节
- 下载大小: 112644285字节
- 数据集大小: 160248641字节
数据集创建
数据收集和标准化
- 方法: 基于单词交换和回译方法生成具有相同词袋但不同词序的句子对。
标注过程
- 标注者: 五个标注者进行二元判断,判断句子对是否为释义。
- 标注时间: 每个标注平均约24秒。
数据集使用注意事项
数据集的社会影响
- 讨论: 需要进一步信息。
数据集的偏见讨论
- 讨论: 需要进一步信息。
其他已知限制
- 讨论: 需要进一步信息。
附加信息
数据集贡献者
- 贡献者: @bhavitvyamalik
许可证信息
- 许可证: 数据集可自由使用,但建议注明Google LLC为数据源。
引用信息
@InProceedings{paws2019naacl, title = {{PAWS: Paraphrase Adversaries from Word Scrambling}}, author = {Zhang, Yuan and Baldridge, Jason and He, Luheng}, booktitle = {Proc. of NAACL}, year = {2019} }
搜集汇总
数据集介绍

背景与挑战
背景概述
PAWS数据集是一个用于同义句识别的高质量数据集,包含108,463个人工标注和656k噪声标注的句子对,特别关注词汇重叠但语义不同的情况。它基于Wikipedia和QQP构建,旨在提升模型在结构、上下文和词序信息建模上的能力。
以上内容由遇见数据集搜集并总结生成



