not-lain/wikipedia-small-3000-embedded
收藏Hugging Face2024-04-08 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/not-lain/wikipedia-small-3000-embedded
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从wikimedia/wikipedia数据集中提取的一个子集,包含3001个样本。每个样本包含id、url、title、text和embedding五个特征,其中embedding是通过SentenceTransformer模型生成的文本嵌入。数据集主要用于文本生成和填充掩码任务,语言为英语,数据量在1K到10K之间。
提供机构:
not-lain
原始信息汇总
数据集概述
数据集信息
-
特征(Features):
id: 数据类型为字符串(string)。url: 数据类型为字符串(string)。title: 数据类型为字符串(string)。text: 数据类型为字符串(string)。embedding: 数据类型为浮点数序列(sequence: float32)。
-
分割(Splits):
train: 包含3001个样本,总大小为73850973字节。
-
下载大小(Download Size): 49787145字节。
-
数据集大小(Dataset Size): 73850973字节。
配置(Configs)
- 默认配置(config_name: default):
train数据文件路径:data/train-*
许可证(License)
- 许可证类型: gfdl
任务类别(Task Categories)
- 任务类型:
- 文本生成(text-generation)
- 填空(fill-mask)
语言(Language)
- 支持语言: 英语(en)
大小类别(Size Categories)
- 数据集大小范围: 1K<n<10K



