PiC/phrase_similarity

Hugging Face2023-01-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PiC/phrase_similarity

下载链接

链接失效反馈

官方服务：

资源简介：

PS是一个二分类任务，目标是在给定相同上下文句子的情况下，预测两个多词名词短语是否语义相似。该数据集包含约10K对短语及其用于消歧的上下文句子，因为仅有两个短语不足以进行语义比较。我们的约10K个示例由语言学专家在<upwork.com>上标注，并由1000名Mturk工人和5名语言学专家进行了两轮验证。

提供机构：

PiC

原始信息汇总

数据集描述

数据集摘要

PS 是一个二分类任务，旨在预测两个多词名词短语在相同上下文句子中是否语义相似。该数据集包含约 10K 对短语及其上下文，用于消除歧义，因为仅凭两个短语不足以进行语义比较。这些示例由语言学专家在 <upwork.com> 上标注，并经过 1000 名 Mturkers 和 5 名语言学专家的两轮验证。

支持的任务和排行榜

[更多信息需补充]

语言

英语。

数据集结构

数据实例

json { "phrase1": "annual run", "phrase2": "yearlong performance", "sentence1": "since 2004, the club has been a sponsor of the annual run for rigby to raise money for off-campus housing safety awareness.", "sentence2": "since 2004, the club has been a sponsor of the yearlong performance for rigby to raise money for off-campus housing safety awareness.", "label": 0, "idx": 0 }

数据字段

phrase1: 字符串特征。
phrase2: 字符串特征。
sentence1: 字符串特征。
sentence2: 字符串特征。
label: 分类标签，负标签为 0，正标签为 1。
idx: int32 特征。

数据分割

名称	训练集	验证集	测试集
PS	7362	1052	2102

数据集创建

数据收集和规范化

源段落和答案来自维基百科，查询源由我们雇佣的语言学专家从 Upwork.com 生成。

源语言生产者

我们雇佣了 13 名语言学专家从 Upwork.com 进行标注，并超过 1000 名 Mechanical Turk 上的标注者以及另外一组 5 名 Upwork 专家进行两轮验证。

标注过程

[更多信息需补充]

标注者

13 名语言学专家来自 Upwork.com。

个人和敏感信息

未提供标注者的身份详细信息。

使用数据集的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

该数据集是 Adobe Research 和 Auburn University 的联合工作。创建者：Thang M. Pham, David Seunghyun Yoon, Trung Bui, 和 Anh Nguyen。

@PMThangXAI 将此数据集添加到 HuggingFace。

许可信息

该数据集在 Creative Commons Attribution-NonCommercial 4.0 International (CC-BY-NC 4.0) 下发布。

引用信息

@article{pham2022PiC, title={PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search}, author={Pham, Thang M and Yoon, Seunghyun and Bui, Trung and Nguyen, Anh}, journal={arXiv preprint arXiv:2207.09068}, year={2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集