five

PiC/phrase_similarity

收藏
Hugging Face2023-01-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PiC/phrase_similarity
下载链接
链接失效反馈
官方服务:
资源简介:
PS是一个二分类任务,目标是在给定相同上下文句子的情况下,预测两个多词名词短语是否语义相似。该数据集包含约10K对短语及其用于消歧的上下文句子,因为仅有两个短语不足以进行语义比较。我们的约10K个示例由语言学专家在<upwork.com>上标注,并由1000名Mturk工人和5名语言学专家进行了两轮验证。
提供机构:
PiC
原始信息汇总

数据集描述

数据集摘要

PS 是一个二分类任务,旨在预测两个多词名词短语在相同上下文句子中是否语义相似。该数据集包含约 10K 对短语及其上下文,用于消除歧义,因为仅凭两个短语不足以进行语义比较。这些示例由语言学专家在 <upwork.com> 上标注,并经过 1000 名 Mturkers 和 5 名语言学专家的两轮验证。

支持的任务和排行榜

[更多信息需补充]

语言

英语。

数据集结构

数据实例

json { "phrase1": "annual run", "phrase2": "yearlong performance", "sentence1": "since 2004, the club has been a sponsor of the annual run for rigby to raise money for off-campus housing safety awareness.", "sentence2": "since 2004, the club has been a sponsor of the yearlong performance for rigby to raise money for off-campus housing safety awareness.", "label": 0, "idx": 0 }

数据字段

  • phrase1: 字符串特征。
  • phrase2: 字符串特征。
  • sentence1: 字符串特征。
  • sentence2: 字符串特征。
  • label: 分类标签,负标签为 0,正标签为 1。
  • idx: int32 特征。

数据分割

名称 训练集 验证集 测试集
PS 7362 1052 2102

数据集创建

数据收集和规范化

源段落和答案来自维基百科,查询源由我们雇佣的语言学专家从 Upwork.com 生成。

源语言生产者

我们雇佣了 13 名语言学专家从 Upwork.com 进行标注,并超过 1000 名 Mechanical Turk 上的标注者以及另外一组 5 名 Upwork 专家进行两轮验证。

标注过程

[更多信息需补充]

标注者

13 名语言学专家来自 Upwork.com

个人和敏感信息

未提供标注者的身份详细信息。

使用数据集的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

该数据集是 Adobe Research 和 Auburn University 的联合工作。 创建者:Thang M. Pham, David Seunghyun Yoon, Trung Bui, 和 Anh Nguyen

@PMThangXAI 将此数据集添加到 HuggingFace。

许可信息

该数据集在 Creative Commons Attribution-NonCommercial 4.0 International (CC-BY-NC 4.0) 下发布。

引用信息

@article{pham2022PiC, title={PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search}, author={Pham, Thang M and Yoon, Seunghyun and Bui, Trung and Nguyen, Anh}, journal={arXiv preprint arXiv:2207.09068}, year={2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作