facebook/wiki_dpr
收藏数据集概述
基本信息
- 数据集名称: Wiki-DPR
- 语言: 英语
- 许可证: CC-BY-NC-4.0
- 多语言性: 多语言
- 数据集大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别:
- 填空
- 文本生成
- 任务ID:
- 语言建模
- 掩码语言建模
- 标签: 文本搜索
数据集结构
配置详情
-
配置名称: psgs_w100.nq.exact
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.nq.compressed
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.nq.no_index
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.exact
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.compressed
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.no_index
- 特征:
id: 字符串text: 字符串title: 字符串embeddings: 浮点数序列
- 分割:
train:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
数据实例
每个实例包含最多100个单词的段落,以及该段落来自的维基百科页面的标题和DPR嵌入(一个768维的向量)。
示例
json { "id": "1", "text": "Aaron Aaron ( or ; "Ahärôn") is a prophet, high priest, and the brother of Moses in the Abrahamic religions. Knowledge of Aaron, along with his brother Moses, comes exclusively from religious texts, such as the Bible and Quran. The Hebrew Bible relates that, unlike Moses, who grew up in the Egyptian royal court, Aaron and his elder sister Miriam remained with their kinsmen in the eastern border-land of Egypt (Goshen). When Moses first confronted the Egyptian king about the Israelites, Aaron served as his brothers spokesman ("prophet") to the Pharaoh. Part of the Law (Torah) that Moses received from", "title": "Aaron", "embeddings": [-0.07233893871307373, 0.48035329580307007, 0.18650995194911957, -0.5287084579467773, -0.37329429388046265, 0.37622880935668945, 0.25524479150772095, ... -0.336689829826355, 0.6313082575798035, -0.7025573253631592] }
数据字段
所有分割的数据字段相同:
id: 字符串特征text: 字符串特征title: 字符串特征embeddings: 浮点数序列特征
数据分割
| 名称 | 训练样本数 |
|---|---|
| psgs_w100.multiset.compressed | 21015300 |
| psgs_w100.multiset.exact | 21015300 |
| psgs_w100.multiset.no_index | 21015300 |
| psgs_w100.nq.compressed | 21015300 |
| psgs_w100.nq.exact | 21015300 |




