five

yujiepan/wikitext-tiny

收藏
Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yujiepan/wikitext-tiny
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从`wikitext/wikitext-2-v1/train`中采样得到的。生成数据集的代码展示了如何从原始数据集中选择符合特定条件的样本,具体条件为文本长度在8到16个单词之间且不包含等号。最终生成了一个包含24个样本的小型数据集。

This dataset is sampled from the `wikitext/wikitext-2-v1/train` split. The code used to generate this dataset illustrates how to select samples from the original dataset that meet specific criteria: the text length ranges between 8 and 16 words and contains no equal signs. Ultimately, a small dataset consisting of 24 samples is constructed.
提供机构:
yujiepan
原始信息汇总

数据集概述

数据来源

  • 该数据集是从 wikitext/wikitext-2-v1/train 中采样得到的。

数据生成代码

python import datasets dataset = datasets.load_dataset(wikitext, wikitext-2-v1)

selected = [] i = -1 while len(selected) < 24: i += 1 text = dataset[train][i][text] if 8 < len(text.split( )) <= 16 and = not in text: selected.append(i)

tiny_dataset = dataset[train].select(selected)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作