karmiq/wikipedia-embeddings-cs-minilm
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/karmiq/wikipedia-embeddings-cs-minilm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是`wikimedia/wikipedia`数据集的捷克语子集。每个页面被分为段落,并存储在`chunks`列中。每个段落的嵌入是使用`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`模型生成的。数据集的结构使其易于用于实现语义搜索。
该数据集是`wikimedia/wikipedia`数据集的捷克语子集。每个页面被分为段落,并存储在`chunks`列中。每个段落的嵌入是使用`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`模型生成的。数据集的结构使其易于用于实现语义搜索。
提供机构:
karmiq
原始信息汇总
数据集概述
数据集信息
- 特征:
id: 字符串类型url: 字符串类型title: 字符串类型chunks: 字符串序列embeddings: 浮点数序列的序列
- 分割:
train: 包含3302394852字节,534044个样本
- 下载大小: 3029969220字节
- 数据集大小: 3302394852字节
配置
- 默认配置:
train分割的数据文件路径:data/train-*
语言
- 捷克语 (
cs)
大小类别
- 100K < n < 1M
任务类别
- 文本生成
- 填充掩码
许可证
- CC-BY-SA-3.0
- GFDL
描述
该数据集包含捷克语子集的维基百科数据。每个页面被划分为段落,存储在chunks列中。每个段落使用sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2模型生成嵌入向量。



