laion160M-tiered
收藏魔搭社区2025-12-03 更新2025-11-29 收录
下载链接:
https://modelscope.cn/datasets/VDB_Benchmark/laion160M-tiered
下载链接
链接失效反馈官方服务:
资源简介:
# Binary Vector Dataset (768-dimensional)
## Overview
This is a large-scale vector dataset containing approximately 160 million 768-dimensional vectors, primarily designed for vector database (e.g., Milvus) tiered storage and multi-tenant performance testing. The vector embeddings are sampled from the LAION-2B dataset.
## Dataset Statistics
- **Total Records**: ~160,000,000
- **Number of Files**: 400
- **Records per File**: 400,000
- **Vector Dimensions**: 768
- **File Size**: ~552 MB
- **Total Size**: ~215.80 GB
- **Compression**: Snappy
- **File Format**: Apache Parquet
- **Data Source**: LAION-2B dataset embeddings
## Data Schema
### Field Specifications
| Field | Type | Parameters | Description | Range/Format |
|---|---|---|---|---|
| `PK` | INT64 | auto=False | Primary key, unique identifier | 0 to 160,000,000 |
| `Vector` | FLOAT32 | dim=768 | 768-dimensional embedding vector | Normalized [-1, 1] |
| `Tenant` | VARCHAR | max_length=200 | Partition key for multi-tenant scenarios | user_0 to user_128000+ |
### Data Type Details
- **Primary Key (PK)**: Sequential integer identifiers, non-auto-incrementing, providing unique identification for each record
- **Vector**: Dense float32 embeddings with 768 dimensions, suitable for semantic similarity search and neural retrieval systems
- **Tenant**: String identifier serving as partition key, enabling multi-tenant data isolation and management
## Tenant Distribution Pattern
The dataset implements a realistic multi-tenant distribution following a power-law pattern commonly seen in real-world applications:
### Tenant Categories
| Category | Tenant Count | Records per Tenant | Tenant ID Range | Total Records | Percentage |
|---|---|---|---|---|---|
| **Large Tenants** | 1 | 16,000,000 | user_0 | 16M | 10% |
| **Medium Tenants** | 16 | 1,000,000 | user_1 to user_16 | 16M | 10% |
| **Small Tenants** | 128,000+ | 1,000 | user_17 to user_128000+ | 128M | 80% |
### Data Organization Strategy
The dataset is organized to support different access patterns and performance testing scenarios:
- **Records 0-80M (First Half)**:
- Shuffled and distributed across multiple files
- Simulates random access patterns
- Tests scatter-gather query performance
- Evaluates cross-file retrieval efficiency
- **Records 80M-160M (Second Half)**:
- Gathered and co-located within same files
- Simulates sequential/batch processing
- Tests bulk operation performance
- Evaluates cache locality benefits
## File Organization
The dataset consists of 400 Parquet files with consistent structure:
```
binary_768d_00000.parquet through binary_768d_00399.parquet
```
*Last Updated: 2025-08*
# 768维二进制向量数据集
## 概述
本数据集为大规模向量数据集,包含约1.6亿条768维向量,主要面向向量数据库(Vector Database,如Milvus)的分层存储与多租户性能测试场景开发。其向量嵌入均取自LAION-2B数据集。
## 数据集统计信息
- **总记录量**:约1.6亿条
- **文件总数**:400个
- **单文件记录数**:40万条
- **向量维度**:768维
- **单文件大小**:约552 MB
- **数据集总规模**:约215.80 GB
- **压缩算法**:Snappy
- **文件格式**:Apache Parquet
- **数据来源**:LAION-2B数据集的向量嵌入
## 数据模式
### 字段规格说明
| 字段名 | 数据类型 | 参数配置 | 描述 | 取值范围/格式 |
|---|---|---|---|---|
| `PK` | INT64 | auto=False | 主键,全局唯一标识符 | 0至1.6亿 |
| `Vector` | FLOAT32 | dim=768 | 768维嵌入向量 | 归一化至[-1, 1]区间 |
| `Tenant` | VARCHAR | max_length=200 | 多租户场景下的分区键 | user_0至user_128000及以上 |
### 数据类型细节
- **主键(PK)**:采用连续整型标识符,非自动递增,为每条记录提供唯一标识
- **向量(Vector)**:768维稠密float32嵌入向量,适用于语义相似度搜索与神经检索系统
- **租户(Tenant)**:用作分区键的字符串标识符,支持多租户的数据隔离与管理
## 租户分布模式
本数据集采用现实应用中常见的幂律分布模式,实现了贴合真实场景的多租户数据分布:
### 租户分类
| 租户类别 | 租户数量 | 单租户记录数 | 租户ID范围 | 单租户总记录量 | 占比 |
|---|---|---|---|---|---|
| **大型租户** | 1 | 1600万 | user_0 | 1600万 | 10% |
| **中型租户** | 16 | 100万 | user_1至user_16 | 1600万 | 10% |
| **小型租户** | 128000+ | 1000 | user_17至user_128000及以上 | 1.28亿 | 80% |
### 数据组织策略
本数据集的组织方式可支持不同访问模式与性能测试场景:
- **记录0-8000万(前半部分)**:
- 经过洗牌处理后分散存储于多个文件中
- 模拟随机访问模式
- 用于测试散射-聚合(Scatter-Gather)查询性能
- 评估跨文件检索效率
- **记录8000万至1.6亿(后半部分)**:
- 集中存储于同一文件内
- 模拟顺序/批量处理模式
- 用于测试批量操作性能
- 评估缓存局部性带来的性能收益
## 文件组织方式
本数据集包含400个结构统一的Parquet文件,命名格式如下:
binary_768d_00000.parquet 至 binary_768d_00399.parquet
*最后更新时间:2025年8月*
提供机构:
maas
创建时间:
2025-11-24



