somewheresystems/dataclysm-wikipedia
收藏Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/somewheresystems/dataclysm-wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含6,458,670篇英文维基百科文章,并使用bge-small-en-v1.5模型为每篇文章的标题生成了嵌入向量。数据集来源于2022年3月1日的维基百科,与其它数据集相比,它在未压缩状态下的大小显著较小。数据集可用于通过查询和标题之间的相似性搜索来检索文章文本,或直接获取2022年3月1日的文章内容。为了提高效率,建议仅保留标题、标题嵌入和URL,以便快速加载和索引信息,并通过网络异步获取其余信息。
提供机构:
somewheresystems
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-3.0
- 语言: 英语
- 名称: dataclysm-wikipedia-titles
- 大小: 1M<n<10M
数据集详情
- 包含内容: 6,458,670篇英语语言的Wikipedia文章,包含使用bge-small-en-v1.5嵌入模型生成的标题嵌入列。
- 数据来源: https://huggingface.co/datasets/wikipedia/viewer/20220301.en
- 数据日期: 截至2022年3月1日的完整文章文本。
- 数据大小: 未压缩时为16.32 GB,相比somewheresystems/dataclysm-wikipedia-titles(68.93 GB)和wikipedia-titles-lite数据集(49.72 GB),分别小86.25%和63.18%。
嵌入模型
- 使用模型: BAAI/bge-small-en-v1.5
- 目的: 快速嵌入文章标题,以便进行更高效的检索。
用途
- 应用场景: 可以将整个数据集加载到数据库中,通过查询与标题的相似度搜索来检索文章文本,或将文章链接至URL并拉取最新文章,或直接从数据集中获取2022年3月1日的文章文本。
- 推荐操作: 建议仅保留标题、标题嵌入和URL,以便快速加载和索引信息,其余信息可通过异步方式高效拉取。
引用信息
@ONLINE{wikidump, author = "Wikimedia Foundation", title = "Wikimedia Downloads", url = "https://dumps.wikimedia.org" }



