BEE-spoke-data/medium-articles-en
收藏Hugging Face2023-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/medium-articles-en
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: title
dtype: string
- name: text
dtype: string
- name: url
dtype: string
- name: authors
dtype: string
- name: timestamp
dtype: string
- name: tags
dtype: string
- name: token_count
dtype: int64
splits:
- name: train
num_bytes: 930797692.9172074
num_examples: 171340
- name: validation
num_bytes: 24494962.048346493
num_examples: 4509
- name: test
num_bytes: 24494962.048346493
num_examples: 4509
download_size: 615394671
dataset_size: 979787617.0139004
license: mit
language:
- en
size_categories:
- 100K<n<1M
source_datasets: fabiochiu/medium-articles
task_categories:
- text-classification
- text-generation
---
# Dataset Card for "medium-articles-en"
`fabiochiu/medium-articles` filtered for `en` only and 100 GPT-4 tiktoken tokens or more.
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
数据集名称
fabiochiu/medium-articles
数据集配置
- 默认配置 (
default)- 训练集 (
train): 路径为data/train-* - 验证集 (
validation): 路径为data/validation-* - 测试集 (
test): 路径为data/test-*
- 训练集 (
数据集特征
title: 字符串类型text: 字符串类型url: 字符串类型authors: 字符串类型timestamp: 字符串类型tags: 字符串类型token_count: 64位整数类型
数据集分割
- 训练集 (
train):- 字节数: 930797692.9172074
- 样本数: 171340
- 验证集 (
validation):- 字节数: 24494962.048346493
- 样本数: 4509
- 测试集 (
test):- 字节数: 24494962.048346493
- 样本数: 4509
数据集大小
- 下载大小: 615394671
- 数据集大小: 979787617.0139004
许可
- MIT 许可
语言
- 英语 (
en)
大小类别
- 100K < n < 1M
源数据集
fabiochiu/medium-articles
任务类别
- 文本分类
- 文本生成



