five

somewheresystems/dataclysm-wikipedia

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/somewheresystems/dataclysm-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含6,458,670篇英文维基百科文章,并使用bge-small-en-v1.5模型为每篇文章的标题生成了嵌入向量。数据集来源于2022年3月1日的维基百科,与其它数据集相比,它在未压缩状态下的大小显著较小。数据集可用于通过查询和标题之间的相似性搜索来检索文章文本,或直接获取2022年3月1日的文章内容。为了提高效率,建议仅保留标题、标题嵌入和URL,以便快速加载和索引信息,并通过网络异步获取其余信息。
提供机构:
somewheresystems
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-3.0
  • 语言: 英语
  • 名称: dataclysm-wikipedia-titles
  • 大小: 1M<n<10M

数据集详情

  • 包含内容: 6,458,670篇英语语言的Wikipedia文章,包含使用bge-small-en-v1.5嵌入模型生成的标题嵌入列。
  • 数据来源: https://huggingface.co/datasets/wikipedia/viewer/20220301.en
  • 数据日期: 截至2022年3月1日的完整文章文本。
  • 数据大小: 未压缩时为16.32 GB,相比somewheresystems/dataclysm-wikipedia-titles(68.93 GB)和wikipedia-titles-lite数据集(49.72 GB),分别小86.25%和63.18%。

嵌入模型

  • 使用模型: BAAI/bge-small-en-v1.5
  • 目的: 快速嵌入文章标题,以便进行更高效的检索。

用途

  • 应用场景: 可以将整个数据集加载到数据库中,通过查询与标题的相似度搜索来检索文章文本,或将文章链接至URL并拉取最新文章,或直接从数据集中获取2022年3月1日的文章文本。
  • 推荐操作: 建议仅保留标题、标题嵌入和URL,以便快速加载和索引信息,其余信息可通过异步方式高效拉取。

引用信息

@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作