not-lain/wikipedia-small-3000-embedded

Name: not-lain/wikipedia-small-3000-embedded
Creator: not-lain
Published: 2024-04-08 00:13:38
License: 暂无描述

Hugging Face2024-04-08 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/not-lain/wikipedia-small-3000-embedded

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从wikimedia/wikipedia数据集中提取的一个子集，包含3001个样本。每个样本包含id、url、title、text和embedding五个特征，其中embedding是通过SentenceTransformer模型生成的文本嵌入。数据集主要用于文本生成和填充掩码任务，语言为英语，数据量在1K到10K之间。

提供机构：

not-lain

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- id: 数据类型为字符串（string）。
- url: 数据类型为字符串（string）。
- title: 数据类型为字符串（string）。
- text: 数据类型为字符串（string）。
- embedding: 数据类型为浮点数序列（sequence: float32）。
分割（Splits）:
- train: 包含3001个样本，总大小为73850973字节。
下载大小（Download Size）: 49787145字节。
数据集大小（Dataset Size）: 73850973字节。

配置（Configs）

默认配置（config_name: default）:
- train 数据文件路径: data/train-*

许可证（License）

许可证类型: gfdl

任务类别（Task Categories）

任务类型:
- 文本生成（text-generation）
- 填空（fill-mask）

语言（Language）

支持语言: 英语（en）

大小类别（Size Categories）

数据集大小范围: 1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集