five

rulins/MassiveDS-140B

收藏
Hugging Face2024-07-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/rulins/MassiveDS-140B
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布了MassiveDS的原始段落、嵌入和索引。MassiveDS包含两个版本:1. MassiveDS-1.4T,数据存储中包含1.4T个令牌;2. MassiveDS-140B,是MassiveDS-1.4T的子采样版本,包含140B个令牌。数据集的文件结构包括:raw_data(JSONL格式的原始数据)、passages(分块的原始段落,每个段落不超过256个单词)、embeddings(使用Contriever-MSMACRO编码的段落嵌入)、index(基于嵌入构建的平面索引)。需要注意的是,由于数据量较大,MassiveDS-1.4T的数据仍在上传中,而MassiveDS-140B已经准备就绪。

MassiveDS dataset releases two versions: MassiveDS-1.4T contains 1.4 trillion tokens, while MassiveDS-140B is a subsampled version containing 140 billion tokens. The dataset includes raw data, chunked raw passages, passage embeddings, and embedding index. The raw data is stored in JSONL files, passages are chunked to have no more than 256 words, embeddings are encoded with Contriever-MSMACRO, and the index is a flat index built with these embeddings.
提供机构:
rulins
原始信息汇总

MassiveDS 数据集概述

数据集版本

  1. MassiveDS-1.4T: 包含1.4T tokens的数据库。
  2. MassiveDS-140B: 包含140B tokens的数据库,是MassiveDS-1.4T的子样本版本。

文件结构

  • raw_data: 以JSONL格式存储的原始数据。
  • passages: 分块后的原始段落,每个段落ID对应一个段落,每个段落不超过256个单词。
  • embeddings: 使用Contriever-MSMACRO编码的段落嵌入。
  • index: 基于嵌入构建的扁平索引。

注意事项

  • MassiveDS-1.4T的数据仍在上传中,MassiveDS-140B已准备就绪。
  • 代码支持请参考GitHub仓库
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作