five

AI71ai/Arctic-Wiki-English-1M

收藏
Hugging Face2026-01-29 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/AI71ai/Arctic-Wiki-English-1M
下载链接
链接失效反馈
官方服务:
资源简介:
Arctic-Wiki-English-1M是一个用于VDBBench向量基准测试的数据集,来源于英文维基百科,使用Snowflake/snowflake-arctic-embed-l-v2.0模型进行嵌入(维度为1024)。数据集包含1,000,000个训练向量和1,000个查询向量,通过字符长度过滤维基百科文章以确保质量。提供了训练集、测试集、可选的打乱训练集以及真实邻居数据。还包括ID映射文件,用于将VDBBench ID映射回原始维基百科ID。数据集设计为Parquet格式,便于VDBBench使用。

Arctic-Wiki-English-1M is a vector benchmark case for VDBBench, sourced from English Wikipedia and embedded using the Snowflake/snowflake-arctic-embed-l-v2.0 model (dimension 1024). The dataset contains 1,000,000 training vectors and 1,000 query vectors, with Wikipedia articles filtered by character length to ensure quality. It provides train set, test set, optional shuffled train set, and ground truth neighbors data. Additionally, it includes ID mapping files to trace VDBBench IDs back to original Wikipedia IDs. The dataset is designed in Parquet format for easy use with VDBBench.
提供机构:
AI71ai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作