five

google-research-datasets/paws

收藏
Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/paws
下载链接
链接失效反馈
资源简介:
PAWS(Paraphrase Adversaries from Word Scrambling)数据集包含108,463个人工标注和656,000个噪声标注的句子对,强调了结构、上下文和词序信息在释义识别中的重要性。数据集分为两个子集,一个基于维基百科,另一个基于Quora Question Pairs(QQP)数据集。数据集包含三个配置:labeled_final、labeled_swap和unlabeled_final,分别包含不同数量和类型的句子对。labeled_final包含通过词交换和回译方法生成的句子对,所有句子对都有人工标注的释义和流畅性判断,并分为训练集、开发集和测试集。labeled_swap仅包含通过词交换生成的句子对,未包含回译生成的句子对,但同样具有高质量的人工标注。unlabeled_final包含噪声标注的句子对,未经过人工判断,可用作辅助训练集。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: PAWS: Paraphrase Adversaries from Word Scrambling
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语
  • 大小类别: 100K<n<1M, 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 语义相似度分类, 语义相似度评分, 文本评分, 多输入文本分类

数据集结构

配置名称

  • labeled_final
  • labeled_swap
  • unlabeled_final

特征

  • id: int32
  • sentence1: string
  • sentence2: string
  • label:
    • class_label:
      • names:
        • 0: 0
        • 1: 1

数据分割

  • labeled_final
    • train: 49401个样本, 12239938字节
    • test: 8000个样本, 1987794字节
    • validation: 8000个样本, 1975862字节
    • 下载大小: 10899391字节
    • 数据集大小: 16203594字节
  • labeled_swap
    • train: 30397个样本, 7963619字节
    • 下载大小: 5741756字节
    • 数据集大小: 7963619字节
  • unlabeled_final
    • train: 645652个样本, 157806476字节
    • validation: 10000个样本, 2442165字节
    • 下载大小: 112644285字节
    • 数据集大小: 160248641字节

数据集创建

数据收集和标准化

  • 方法: 基于单词交换和回译方法生成具有相同词袋但不同词序的句子对。

标注过程

  • 标注者: 五个标注者进行二元判断,判断句子对是否为释义。
  • 标注时间: 每个标注平均约24秒。

数据集使用注意事项

数据集的社会影响

  • 讨论: 需要进一步信息。

数据集的偏见讨论

  • 讨论: 需要进一步信息。

其他已知限制

  • 讨论: 需要进一步信息。

附加信息

数据集贡献者

许可证信息

  • 许可证: 数据集可自由使用,但建议注明Google LLC为数据源。

引用信息

@InProceedings{paws2019naacl, title = {{PAWS: Paraphrase Adversaries from Word Scrambling}}, author = {Zhang, Yuan and Baldridge, Jason and He, Luheng}, booktitle = {Proc. of NAACL}, year = {2019} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PAWS数据集是一个用于同义句识别的高质量数据集,包含108,463个人工标注和656k噪声标注的句子对,特别关注词汇重叠但语义不同的情况。它基于Wikipedia和QQP构建,旨在提升模型在结构、上下文和词序信息建模上的能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作