five

laion160M-tiered

收藏
魔搭社区2025-12-03 更新2025-11-29 收录
下载链接:
https://modelscope.cn/datasets/VDB_Benchmark/laion160M-tiered
下载链接
链接失效反馈
官方服务:
资源简介:
# Binary Vector Dataset (768-dimensional) ## Overview This is a large-scale vector dataset containing approximately 160 million 768-dimensional vectors, primarily designed for vector database (e.g., Milvus) tiered storage and multi-tenant performance testing. The vector embeddings are sampled from the LAION-2B dataset. ## Dataset Statistics - **Total Records**: ~160,000,000 - **Number of Files**: 400 - **Records per File**: 400,000 - **Vector Dimensions**: 768 - **File Size**: ~552 MB - **Total Size**: ~215.80 GB - **Compression**: Snappy - **File Format**: Apache Parquet - **Data Source**: LAION-2B dataset embeddings ## Data Schema ### Field Specifications | Field | Type | Parameters | Description | Range/Format | |---|---|---|---|---| | `PK` | INT64 | auto=False | Primary key, unique identifier | 0 to 160,000,000 | | `Vector` | FLOAT32 | dim=768 | 768-dimensional embedding vector | Normalized [-1, 1] | | `Tenant` | VARCHAR | max_length=200 | Partition key for multi-tenant scenarios | user_0 to user_128000+ | ### Data Type Details - **Primary Key (PK)**: Sequential integer identifiers, non-auto-incrementing, providing unique identification for each record - **Vector**: Dense float32 embeddings with 768 dimensions, suitable for semantic similarity search and neural retrieval systems - **Tenant**: String identifier serving as partition key, enabling multi-tenant data isolation and management ## Tenant Distribution Pattern The dataset implements a realistic multi-tenant distribution following a power-law pattern commonly seen in real-world applications: ### Tenant Categories | Category | Tenant Count | Records per Tenant | Tenant ID Range | Total Records | Percentage | |---|---|---|---|---|---| | **Large Tenants** | 1 | 16,000,000 | user_0 | 16M | 10% | | **Medium Tenants** | 16 | 1,000,000 | user_1 to user_16 | 16M | 10% | | **Small Tenants** | 128,000+ | 1,000 | user_17 to user_128000+ | 128M | 80% | ### Data Organization Strategy The dataset is organized to support different access patterns and performance testing scenarios: - **Records 0-80M (First Half)**: - Shuffled and distributed across multiple files - Simulates random access patterns - Tests scatter-gather query performance - Evaluates cross-file retrieval efficiency - **Records 80M-160M (Second Half)**: - Gathered and co-located within same files - Simulates sequential/batch processing - Tests bulk operation performance - Evaluates cache locality benefits ## File Organization The dataset consists of 400 Parquet files with consistent structure: ``` binary_768d_00000.parquet through binary_768d_00399.parquet ``` *Last Updated: 2025-08*

# 768维二进制向量数据集 ## 概述 本数据集为大规模向量数据集,包含约1.6亿条768维向量,主要面向向量数据库(Vector Database,如Milvus)的分层存储与多租户性能测试场景开发。其向量嵌入均取自LAION-2B数据集。 ## 数据集统计信息 - **总记录量**:约1.6亿条 - **文件总数**:400个 - **单文件记录数**:40万条 - **向量维度**:768维 - **单文件大小**:约552 MB - **数据集总规模**:约215.80 GB - **压缩算法**:Snappy - **文件格式**:Apache Parquet - **数据来源**:LAION-2B数据集的向量嵌入 ## 数据模式 ### 字段规格说明 | 字段名 | 数据类型 | 参数配置 | 描述 | 取值范围/格式 | |---|---|---|---|---| | `PK` | INT64 | auto=False | 主键,全局唯一标识符 | 0至1.6亿 | | `Vector` | FLOAT32 | dim=768 | 768维嵌入向量 | 归一化至[-1, 1]区间 | | `Tenant` | VARCHAR | max_length=200 | 多租户场景下的分区键 | user_0至user_128000及以上 | ### 数据类型细节 - **主键(PK)**:采用连续整型标识符,非自动递增,为每条记录提供唯一标识 - **向量(Vector)**:768维稠密float32嵌入向量,适用于语义相似度搜索与神经检索系统 - **租户(Tenant)**:用作分区键的字符串标识符,支持多租户的数据隔离与管理 ## 租户分布模式 本数据集采用现实应用中常见的幂律分布模式,实现了贴合真实场景的多租户数据分布: ### 租户分类 | 租户类别 | 租户数量 | 单租户记录数 | 租户ID范围 | 单租户总记录量 | 占比 | |---|---|---|---|---|---| | **大型租户** | 1 | 1600万 | user_0 | 1600万 | 10% | | **中型租户** | 16 | 100万 | user_1至user_16 | 1600万 | 10% | | **小型租户** | 128000+ | 1000 | user_17至user_128000及以上 | 1.28亿 | 80% | ### 数据组织策略 本数据集的组织方式可支持不同访问模式与性能测试场景: - **记录0-8000万(前半部分)**: - 经过洗牌处理后分散存储于多个文件中 - 模拟随机访问模式 - 用于测试散射-聚合(Scatter-Gather)查询性能 - 评估跨文件检索效率 - **记录8000万至1.6亿(后半部分)**: - 集中存储于同一文件内 - 模拟顺序/批量处理模式 - 用于测试批量操作性能 - 评估缓存局部性带来的性能收益 ## 文件组织方式 本数据集包含400个结构统一的Parquet文件,命名格式如下: binary_768d_00000.parquet 至 binary_768d_00399.parquet *最后更新时间:2025年8月*
提供机构:
maas
创建时间:
2025-11-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作