five

jjz5463/topics_common_crawl_large_1.0

收藏
Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jjz5463/topics_common_crawl_large_1.0
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: Common crawl text dtype: string - name: Topics dtype: string splits: - name: train num_bytes: 3909065 num_examples: 10000 download_size: 2311018 dataset_size: 3909065 configs: - config_name: default data_files: - split: train path: data/train-* library_name: datadreamer size_categories: - 10K<n<100K tags: - datadreamer - datadreamer-0.25.0 - synthetic - gpt-4 --- # Dataset Card [Add more information here](https://huggingface.co/datasets/templates/dataset-card-example) --- This dataset was produced with [DataDreamer 🤖💤](https://datadreamer.dev). The synthetic dataset card can be found [here](datadreamer.json).

### 数据集信息 特征字段: - 字段名:通用爬虫文本(Common crawl text),数据类型:字符串 - 字段名:主题(Topics),数据类型:字符串 数据集划分: - 划分名称:训练集,字节大小:3909065,样本数量:10000 下载总大小:2311018,数据集存储总大小:3909065 配置项: - 配置名称:默认(default),数据文件: - 对应划分:训练集,文件路径:data/train-* 依赖库:datadreamer 规模区间: - 10K < n < 100K 标签: - datadreamer - datadreamer-0.25.0 - 合成(synthetic) - GPT-4 --- # 数据集卡片 [此处可补充更多数据集信息](https://huggingface.co/datasets/templates/dataset-card-example) --- 本数据集由[DataDreamer 🤖💤](https://datadreamer.dev)生成。该合成数据集的专属卡片可于[此处](datadreamer.json)查阅。
提供机构:
jjz5463
原始信息汇总

数据集概述

数据集特征

  • Common crawl text:字符串类型
  • Topics:字符串类型

数据分割

  • 训练集(train)
    • 示例数量:10000
    • 数据大小:3909065字节

数据集大小

  • 下载大小:2311018字节
  • 总数据集大小:3909065字节

配置信息

  • 默认配置(default)
    • 训练数据路径:data/train-*

数据集分类

  • 大小范围:10K<n<100K

标签

  • datadreamer
  • datadreamer-0.25.0
  • synthetic
  • gpt-4
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作