karmiq/wikipedia-embeddings-cs-e5-small
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/karmiq/wikipedia-embeddings-cs-e5-small
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含捷克语维基百科的子集,每个页面被分成段落并存储在`chunks`列中。每个段落的嵌入是使用`intfloat/multilingual-e5-small`模型生成的。数据集的结构使其易于用于实现语义搜索。
该数据集包含捷克语维基百科的子集,每个页面被分成段落并存储在`chunks`列中。每个段落的嵌入是使用`intfloat/multilingual-e5-small`模型生成的。数据集的结构使其易于用于实现语义搜索。
提供机构:
karmiq
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型chunks: 字符串序列embeddings: 浮点数序列的序列
- 分割:
train: 包含534044个样本,总大小为3302394852字节
- 下载大小: 3029933751字节
- 数据集大小: 3302394852字节
配置
- 默认配置:
data_files:train:data/train-*
语言
- 捷克语
大小类别
- 100K < n < 1M
任务类别
- 文本生成
- 填充掩码
许可证
- CC BY-SA 3.0
- GFDL



