five

SOSD (Searching on Sorted Data)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/SOSD
下载链接
链接失效反馈
官方服务:
资源简介:
"SOSD 是一个数据集集合,用于对学习索引的查找性能进行基准测试。SOSD 目前包括八个不同的数据集。每个数据集由 2 亿个 64 位无符号整数(键)组成,重复很少(如果有的话): amzn 表示图书销售人气数据。face 是 Facebook 用户 ID 数据集的上采样版本。logn 和 norm 分别是对数正态 (0, 2) 和正态分布。osmc 是统一采样的 OpenStreetMap 位置,表示为 Google S2 CellIds。uden 是密集的整数。uspr 是均匀分布的稀疏整数。wiki 是维基百科文章编辑时间戳。此外,所有数据集(osmc 和 wiki 除外)都有 32 位版本,具有相似的 CDF。我们使用不同的参数,(0, 1),用于以 32 位的情况登录以减少重复的数量。”

SOSD is a collection of datasets for benchmarking the lookup performance of learned indexes. SOSD currently includes eight distinct datasets. Each dataset consists of 200 million 64-bit unsigned integers (keys) with very few, if any, duplicates: - amzn: Represents book sales popularity data. - face: An upsampled version of the Facebook user ID dataset. - logn and norm: Follow the log-normal (0, 2) and normal distributions respectively. - osmc: Consists of uniformly sampled OpenStreetMap locations represented as Google S2 CellIds. - uden: Comprises dense integers. - uspr: Consists of uniformly distributed sparse integers. - wiki: Represents edit timestamps of Wikipedia articles. Additionally, all datasets except osmc and wiki have 32-bit variants with similar cumulative distribution functions (CDFs). We use different parameters, (0, 1), for the 32-bit variant of logn to reduce the number of duplicates.
提供机构:
OpenDataLab
创建时间:
2022-05-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SOSD是一个用于学习索引查找性能基准测试的数据集集合,包含八个不同的数据集,每个数据集由2亿个64位无符号整数组成,涵盖多种数据类型。数据集还提供32位版本,适用于不同的测试需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作