five

google-research-datasets/paws|paraphrase识别数据集|文本分类数据集

收藏
hugging_face2024-01-04 更新2024-06-15 收录
paraphrase识别
文本分类
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/paws
下载链接
链接失效反馈
资源简介:
PAWS(Paraphrase Adversaries from Word Scrambling)数据集包含108,463个人工标注和656,000个噪声标注的句子对,强调了结构、上下文和词序信息在释义识别中的重要性。数据集分为两个子集,一个基于维基百科,另一个基于Quora Question Pairs(QQP)数据集。数据集包含三个配置:labeled_final、labeled_swap和unlabeled_final,分别包含不同数量和类型的句子对。labeled_final包含通过词交换和回译方法生成的句子对,所有句子对都有人工标注的释义和流畅性判断,并分为训练集、开发集和测试集。labeled_swap仅包含通过词交换生成的句子对,未包含回译生成的句子对,但同样具有高质量的人工标注。unlabeled_final包含噪声标注的句子对,未经过人工判断,可用作辅助训练集。
提供机构:
google-research-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: PAWS: Paraphrase Adversaries from Word Scrambling
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语
  • 大小类别: 100K<n<1M, 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 语义相似度分类, 语义相似度评分, 文本评分, 多输入文本分类

数据集结构

配置名称

  • labeled_final
  • labeled_swap
  • unlabeled_final

特征

  • id: int32
  • sentence1: string
  • sentence2: string
  • label:
    • class_label:
      • names:
        • 0: 0
        • 1: 1

数据分割

  • labeled_final
    • train: 49401个样本, 12239938字节
    • test: 8000个样本, 1987794字节
    • validation: 8000个样本, 1975862字节
    • 下载大小: 10899391字节
    • 数据集大小: 16203594字节
  • labeled_swap
    • train: 30397个样本, 7963619字节
    • 下载大小: 5741756字节
    • 数据集大小: 7963619字节
  • unlabeled_final
    • train: 645652个样本, 157806476字节
    • validation: 10000个样本, 2442165字节
    • 下载大小: 112644285字节
    • 数据集大小: 160248641字节

数据集创建

数据收集和标准化

  • 方法: 基于单词交换和回译方法生成具有相同词袋但不同词序的句子对。

标注过程

  • 标注者: 五个标注者进行二元判断,判断句子对是否为释义。
  • 标注时间: 每个标注平均约24秒。

数据集使用注意事项

数据集的社会影响

  • 讨论: 需要进一步信息。

数据集的偏见讨论

  • 讨论: 需要进一步信息。

其他已知限制

  • 讨论: 需要进一步信息。

附加信息

数据集贡献者

许可证信息

  • 许可证: 数据集可自由使用,但建议注明Google LLC为数据源。

引用信息

@InProceedings{paws2019naacl, title = {{PAWS: Paraphrase Adversaries from Word Scrambling}}, author = {Zhang, Yuan and Baldridge, Jason and He, Luheng}, booktitle = {Proc. of NAACL}, year = {2019} }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录