PiC/phrase_retrieval
收藏Hugging Face2023-01-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PiC/phrase_retrieval
下载链接
链接失效反馈官方服务:
资源简介:
PiC: Phrase Retrieval数据集是一个用于短语检索任务的数据集,旨在在给定文档中找到与查询短语语义相似的短语。该数据集包含两个版本:PR-pass和PR-page,分别基于随机11句段落和整个Wikipedia页面。PR-pass包含28,147个示例,PR-page包含28,098个示例。数据集被分为测试集、开发集和训练集,分别包含5K、3K和约20K个示例。数据集的语言为英语,许可证为CC-BY-NC-4.0。
提供机构:
PiC
原始信息汇总
数据集概述
数据集名称
- 名称: PiC: Phrase Retrieval
- 别名: PR
数据集概要
- 任务: 语句检索任务,旨在从给定文档中找到与查询语句语义相似的目标语句。
- 版本: 两个版本,PR-pass 和 PR-page,分别包含 28,147 和 28,098 个样本。
- 数据结构: 每个样本包含查询语句、目标语句和包含目标语句的文档。
- 数据分割: 测试集 5K,开发集 3K,训练集约 20K。
语言信息
- 语言: 英语
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 发现和专家生成
- 源数据: 原始数据
许可证
- 许可证: CC-BY-NC-4.0
数据集大小
- 大小范围: 10K<n<100K
数据集结构
- PR-pass:
- 下载大小: 43.61 MB
- 生成数据集大小: 36.98 MB
- 总磁盘使用: 80.59 MB
- PR-page:
- 下载大小: 421.56 MB
- 生成数据集大小: 412.17 MB
- 总磁盘使用: 833.73 MB
示例数据结构
-
PR-pass: json { "id": "3478-1", "title": "https://en.wikipedia.org/wiki?curid=181261", "context": "...", "query": "dependable adaptation", "answers": { "text": ["reliable version"], "answer_start": [1006] } }
-
PR-page: json { "id": "5961-2", "title": "https://en.wikipedia.org/wiki?curid=354711", "context": "...", "query": "accurate approach", "answers": { "text": ["correct method"], "answer_start": [2727] } }



