yujiepan/wikitext-tiny
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yujiepan/wikitext-tiny
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从`wikitext/wikitext-2-v1/train`中采样得到的。生成数据集的代码展示了如何从原始数据集中选择符合特定条件的样本,具体条件为文本长度在8到16个单词之间且不包含等号。最终生成了一个包含24个样本的小型数据集。
This dataset is sampled from the `wikitext/wikitext-2-v1/train` split. The code used to generate this dataset illustrates how to select samples from the original dataset that meet specific criteria: the text length ranges between 8 and 16 words and contains no equal signs. Ultimately, a small dataset consisting of 24 samples is constructed.
提供机构:
yujiepan
原始信息汇总
数据集概述
数据来源
- 该数据集是从
wikitext/wikitext-2-v1/train中采样得到的。
数据生成代码
python import datasets dataset = datasets.load_dataset(wikitext, wikitext-2-v1)
selected = [] i = -1 while len(selected) < 24: i += 1 text = dataset[train][i][text] if 8 < len(text.split( )) <= 16 and = not in text: selected.append(i)
tiny_dataset = dataset[train].select(selected)



