five

stas/openwebtext-synthetic-testing

收藏
Hugging Face2023-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stas/openwebtext-synthetic-testing
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从openwebtext-10k中选取的10条记录,用于快速测试,并且可以生成1到1000条记录的重复数据集。每条记录是一个包含多个段落的网页文章。由于该数据集主要用于CI的功能测试,因此没有训练或验证集的分割。
提供机构:
stas
原始信息汇总

数据集概述

数据来源

数据用途

  • 用于快速测试,可以生成10条、20条、30条、40条、50条、100条、300条或1000条记录的重复数据。

数据结构

  • 每条记录包含一个长为几个段落的text字段,内容为网络文章。

数据分割

  • 该数据集不区分trainvalidation分割,仅用于快速功能测试,可以重复使用相同记录。

示例代码

  • 使用以下代码可以加载不同数量的重复记录:

python from datasets import load_dataset ds = load_dataset("stas/openwebtext-synthetic-testing", split="10.repeat") print(len(ds)) # 输出10

ds = load_dataset("stas/openwebtext-synthetic-testing", split="1k.repeat") print(len(ds)) # 输出1000

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作