PiC/phrase_similarity
收藏数据集描述
数据集摘要
PS 是一个二分类任务,旨在预测两个多词名词短语在相同上下文句子中是否语义相似。该数据集包含约 10K 对短语及其上下文,用于消除歧义,因为仅凭两个短语不足以进行语义比较。这些示例由语言学专家在 <upwork.com> 上标注,并经过 1000 名 Mturkers 和 5 名语言学专家的两轮验证。
支持的任务和排行榜
[更多信息需补充]
语言
英语。
数据集结构
数据实例
json { "phrase1": "annual run", "phrase2": "yearlong performance", "sentence1": "since 2004, the club has been a sponsor of the annual run for rigby to raise money for off-campus housing safety awareness.", "sentence2": "since 2004, the club has been a sponsor of the yearlong performance for rigby to raise money for off-campus housing safety awareness.", "label": 0, "idx": 0 }
数据字段
- phrase1: 字符串特征。
- phrase2: 字符串特征。
- sentence1: 字符串特征。
- sentence2: 字符串特征。
- label: 分类标签,负标签为 0,正标签为 1。
- idx: int32 特征。
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| PS | 7362 | 1052 | 2102 |
数据集创建
数据收集和规范化
源段落和答案来自维基百科,查询源由我们雇佣的语言学专家从 Upwork.com 生成。
源语言生产者
我们雇佣了 13 名语言学专家从 Upwork.com 进行标注,并超过 1000 名 Mechanical Turk 上的标注者以及另外一组 5 名 Upwork 专家进行两轮验证。
标注过程
[更多信息需补充]
标注者
13 名语言学专家来自 Upwork.com。
个人和敏感信息
未提供标注者的身份详细信息。
使用数据集的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
该数据集是 Adobe Research 和 Auburn University 的联合工作。 创建者:Thang M. Pham, David Seunghyun Yoon, Trung Bui, 和 Anh Nguyen。
@PMThangXAI 将此数据集添加到 HuggingFace。
许可信息
该数据集在 Creative Commons Attribution-NonCommercial 4.0 International (CC-BY-NC 4.0) 下发布。
引用信息
@article{pham2022PiC, title={PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search}, author={Pham, Thang M and Yoon, Seunghyun and Bui, Trung and Nguyen, Anh}, journal={arXiv preprint arXiv:2207.09068}, year={2022} }



