karmiq/wikipedia-embeddings-cs-minilm

Name: karmiq/wikipedia-embeddings-cs-minilm
Creator: karmiq
Published: 2024-01-22 10:46:46
License: 暂无描述

Hugging Face2024-01-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/karmiq/wikipedia-embeddings-cs-minilm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是`wikimedia/wikipedia`数据集的捷克语子集。每个页面被分为段落，并存储在`chunks`列中。每个段落的嵌入是使用`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`模型生成的。数据集的结构使其易于用于实现语义搜索。

提供机构：

karmiq

原始信息汇总

数据集概述

数据集信息

特征:
- id: 字符串类型
- url: 字符串类型
- title: 字符串类型
- chunks: 字符串序列
- embeddings: 浮点数序列的序列
分割:
- train: 包含3302394852字节，534044个样本
下载大小: 3029969220字节
数据集大小: 3302394852字节

配置

默认配置:
- train分割的数据文件路径: data/train-*

语言

捷克语 (cs)

大小类别

100K < n < 1M

任务类别

文本生成
填充掩码

许可证

CC-BY-SA-3.0
GFDL

描述

该数据集包含捷克语子集的维基百科数据。每个页面被划分为段落，存储在chunks列中。每个段落使用sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2模型生成嵌入向量。

5,000+

优质数据集

54 个

任务类型

进入经典数据集