jonathanli/human-essays-reddit-samples

Name: jonathanli/human-essays-reddit-samples
Creator: jonathanli
Published: 2024-02-19 17:40:55
License: 暂无描述

Hugging Face2024-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jonathanli/human-essays-reddit-samples

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4000个样本，其中2000个样本是通过最远点采样（most_different）方法选取的，另外2000个样本是随机选取的（random_samples）。数据集的特征包括评论数量、创建时间、得分、标题、顶部评论、顶部评论得分和标签。数据集分为训练集，大小为12861995字节，包含4000个样本。

提供机构：

jonathanli

原始信息汇总

数据集概述

数据集信息

特征

num_comments: 类型为 int64
created_utc: 类型为 int64
score: 类型为 int64
title: 类型为 string
top_comment: 类型为 string
top_comment_score: 类型为 int64
label: 类型为 string

数据分割

train: 字节数为 12861995，样本数为 4000

数据大小

下载大小: 8235815 字节
数据集大小: 12861995 字节

配置

config_name: default
data_files:
- split: train
- path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集