google-research-datasets/paws|paraphrase识别数据集|文本分类数据集
收藏数据集概述
基本信息
- 数据集名称: PAWS: Paraphrase Adversaries from Word Scrambling
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小类别: 100K<n<1M, 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 文本分类
- 任务ID: 语义相似度分类, 语义相似度评分, 文本评分, 多输入文本分类
数据集结构
配置名称
- labeled_final
- labeled_swap
- unlabeled_final
特征
- id: int32
- sentence1: string
- sentence2: string
- label:
- class_label:
- names:
- 0: 0
- 1: 1
- names:
- class_label:
数据分割
- labeled_final
- train: 49401个样本, 12239938字节
- test: 8000个样本, 1987794字节
- validation: 8000个样本, 1975862字节
- 下载大小: 10899391字节
- 数据集大小: 16203594字节
- labeled_swap
- train: 30397个样本, 7963619字节
- 下载大小: 5741756字节
- 数据集大小: 7963619字节
- unlabeled_final
- train: 645652个样本, 157806476字节
- validation: 10000个样本, 2442165字节
- 下载大小: 112644285字节
- 数据集大小: 160248641字节
数据集创建
数据收集和标准化
- 方法: 基于单词交换和回译方法生成具有相同词袋但不同词序的句子对。
标注过程
- 标注者: 五个标注者进行二元判断,判断句子对是否为释义。
- 标注时间: 每个标注平均约24秒。
数据集使用注意事项
数据集的社会影响
- 讨论: 需要进一步信息。
数据集的偏见讨论
- 讨论: 需要进一步信息。
其他已知限制
- 讨论: 需要进一步信息。
附加信息
数据集贡献者
- 贡献者: @bhavitvyamalik
许可证信息
- 许可证: 数据集可自由使用,但建议注明Google LLC为数据源。
引用信息
@InProceedings{paws2019naacl, title = {{PAWS: Paraphrase Adversaries from Word Scrambling}}, author = {Zhang, Yuan and Baldridge, Jason and He, Luheng}, booktitle = {Proc. of NAACL}, year = {2019} }
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录