stas/openwebtext-synthetic-testing
收藏Hugging Face2023-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stas/openwebtext-synthetic-testing
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从openwebtext-10k中选取的10条记录,用于快速测试,并且可以生成1到1000条记录的重复数据集。每条记录是一个包含多个段落的网页文章。由于该数据集主要用于CI的功能测试,因此没有训练或验证集的分割。
提供机构:
stas
原始信息汇总
数据集概述
数据来源
- 本数据集基于openwebtext-10k中的10条记录构建。
数据用途
- 用于快速测试,可以生成10条、20条、30条、40条、50条、100条、300条或1000条记录的重复数据。
数据结构
- 每条记录包含一个长为几个段落的
text字段,内容为网络文章。
数据分割
- 该数据集不区分
train或validation分割,仅用于快速功能测试,可以重复使用相同记录。
示例代码
- 使用以下代码可以加载不同数量的重复记录:
python from datasets import load_dataset ds = load_dataset("stas/openwebtext-synthetic-testing", split="10.repeat") print(len(ds)) # 输出10
ds = load_dataset("stas/openwebtext-synthetic-testing", split="1k.repeat") print(len(ds)) # 输出1000



