five

gfhayworth/wiki_mini_embed

收藏
Hugging Face2023-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gfhayworth/wiki_mini_embed
下载链接
链接失效反馈
官方服务:
资源简介:
Simple English Wikipedia数据集包含约17万篇文章,这些文章被分割成段落。数据集文件名为simplewiki-2020-11-01.jsonl.gz,如果本地不存在该文件,则通过提供的URL下载。这些段落被使用SentenceTransformer(multi-qa-MiniLM-L6-cos-v1)模型嵌入为向量。

The Simple English Wikipedia dataset comprises approximately 170,000 articles, which are segmented into paragraphs. The dataset file is named simplewiki-2020-11-01.jsonl.gz, and it will be downloaded through the provided URL if it is not present locally. These paragraphs are embedded into vector representations using the SentenceTransformer (multi-qa-MiniLM-L6-cos-v1) model.
提供机构:
gfhayworth
原始信息汇总

数据集概述

数据集名称

  • 名称: Simple English Wikipedia

数据集大小

  • 文章数量: 约170,000篇

数据集处理

  • 处理方式: 文章被分割成段落

数据集文件路径

  • 文件路径: simplewiki-2020-11-01.jsonl.gz

数据集嵌入

  • 嵌入方法: 使用SentenceTransformer模型 multi-qa-MiniLM-L6-cos-v1 将内容嵌入为向量
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作