five

Intelligent-Internet/wikipedia_en

收藏
Hugging Face2025-05-19 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/Intelligent-Internet/wikipedia_en
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个经过筛选的英文维基百科页面数据集,直接来源于官方英文维基百科数据库的转储。数据被分成小块并使用Snowflake的snowflake-arctic-embed-m-v2.0嵌入向量。所有的向量嵌入都是16位半精度向量,为cosine索引与vectorchord优化。

This is a curated English Wikipedia pages dataset sourced directly from the official English Wikipedia database dump. The data is chunked into smaller pieces and embedded using Snowflakes snowflake-arctic-embed-m-v2.0. All vector embeddings are 16-bit half-precision vectors optimized for cosine indexing with vectorchord.
提供机构:
Intelligent-Internet
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作