facebook/wiki_dpr|文本检索数据集|语言建模数据集
收藏数据集概述
基本信息
- 数据集名称: Wiki-DPR
- 语言: 英语
- 许可证: CC-BY-NC-4.0
- 多语言性: 多语言
- 数据集大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别:
- 填空
- 文本生成
- 任务ID:
- 语言建模
- 掩码语言建模
- 标签: 文本搜索
数据集结构
配置详情
-
配置名称: psgs_w100.nq.exact
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.nq.compressed
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.nq.no_index
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85288677114
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.exact
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.compressed
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
-
配置名称: psgs_w100.multiset.no_index
- 特征:
id
: 字符串text
: 字符串title
: 字符串embeddings
: 浮点数序列
- 分割:
train
:- 字节数: 78419248156
- 样本数: 21015300
- 下载大小: 85289275855
- 数据集大小: 78419248156
- 特征:
数据实例
每个实例包含最多100个单词的段落,以及该段落来自的维基百科页面的标题和DPR嵌入(一个768维的向量)。
示例
json { "id": "1", "text": "Aaron Aaron ( or ; "Ahärôn") is a prophet, high priest, and the brother of Moses in the Abrahamic religions. Knowledge of Aaron, along with his brother Moses, comes exclusively from religious texts, such as the Bible and Quran. The Hebrew Bible relates that, unlike Moses, who grew up in the Egyptian royal court, Aaron and his elder sister Miriam remained with their kinsmen in the eastern border-land of Egypt (Goshen). When Moses first confronted the Egyptian king about the Israelites, Aaron served as his brothers spokesman ("prophet") to the Pharaoh. Part of the Law (Torah) that Moses received from", "title": "Aaron", "embeddings": [-0.07233893871307373, 0.48035329580307007, 0.18650995194911957, -0.5287084579467773, -0.37329429388046265, 0.37622880935668945, 0.25524479150772095, ... -0.336689829826355, 0.6313082575798035, -0.7025573253631592] }
数据字段
所有分割的数据字段相同:
id
: 字符串特征text
: 字符串特征title
: 字符串特征embeddings
: 浮点数序列特征
数据分割
名称 | 训练样本数 |
---|---|
psgs_w100.multiset.compressed | 21015300 |
psgs_w100.multiset.exact | 21015300 |
psgs_w100.multiset.no_index | 21015300 |
psgs_w100.nq.compressed | 21015300 |
psgs_w100.nq.exact | 21015300 |

suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Global Burden of Disease Study (GBD)
全球疾病负担研究(GBD)数据集提供了全球范围内疾病、伤害和风险因素的详细统计数据。该数据集包括了各种健康指标,如死亡率、发病率、伤残调整生命年(DALYs)等,涵盖了多个国家和地区。数据集还提供了不同年龄组、性别和时间段的详细分析。
ghdx.healthdata.org 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录