gfhayworth/wiki_mini_embed
收藏Hugging Face2023-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gfhayworth/wiki_mini_embed
下载链接
链接失效反馈官方服务:
资源简介:
Simple English Wikipedia数据集包含约17万篇文章,这些文章被分割成段落。数据集文件名为simplewiki-2020-11-01.jsonl.gz,如果本地不存在该文件,则通过提供的URL下载。这些段落被使用SentenceTransformer(multi-qa-MiniLM-L6-cos-v1)模型嵌入为向量。
The Simple English Wikipedia dataset comprises approximately 170,000 articles, which are segmented into paragraphs. The dataset file is named simplewiki-2020-11-01.jsonl.gz, and it will be downloaded through the provided URL if it is not present locally. These paragraphs are embedded into vector representations using the SentenceTransformer (multi-qa-MiniLM-L6-cos-v1) model.
提供机构:
gfhayworth
原始信息汇总
数据集概述
数据集名称
- 名称: Simple English Wikipedia
数据集大小
- 文章数量: 约170,000篇
数据集处理
- 处理方式: 文章被分割成段落
数据集文件路径
- 文件路径: simplewiki-2020-11-01.jsonl.gz
数据集嵌入
- 嵌入方法: 使用SentenceTransformer模型 multi-qa-MiniLM-L6-cos-v1 将内容嵌入为向量



