fsteig/reddit-20gb
收藏Hugging Face2026-03-05 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/fsteig/reddit-20gb
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: archived
dtype: string
- name: author
dtype: string
- name: author_fullname
dtype: string
- name: body
dtype: string
- name: comment_type
dtype: string
- name: controversiality
dtype: string
- name: created_utc
dtype: string
- name: edited
dtype: string
- name: gilded
dtype: string
- name: id
dtype: string
- name: link_id
dtype: string
- name: locked
dtype: string
- name: name
dtype: string
- name: parent_id
dtype: string
- name: permalink
dtype: string
- name: retrieved_on
dtype: string
- name: score
dtype: string
- name: subreddit_id
dtype: string
- name: subreddit_name_prefixed
dtype: string
- name: subreddit_type
dtype: string
- name: total_awards_received
dtype: string
splits:
- name: train
num_bytes: 36685468584
num_examples: 85000000
download_size: 19967586229
dataset_size: 36685468584
---
random sample of 85M items from HuggingFaceGECLM/REDDIT_comments
配置项:
- 配置名称:默认
数据文件:
- 拆分集:训练集
路径:data/train-*
数据集信息:
特征字段:
- 名称:已归档(archived),数据类型:字符串(string)
- 名称:作者(author),数据类型:字符串(string)
- 名称:作者全名(author_fullname),数据类型:字符串(string)
- 名称:正文内容(body),数据类型:字符串(string)
- 名称:评论类型(comment_type),数据类型:字符串(string)
- 名称:争议度(controversiality),数据类型:字符串(string)
- 名称:UTC创建时间(created_utc),数据类型:字符串(string)
- 名称:是否编辑(edited),数据类型:字符串(string)
- 名称:获赠金徽章(gilded),数据类型:字符串(string)
- 名称:ID(id),数据类型:字符串(string)
- 名称:链接ID(link_id),数据类型:字符串(string)
- 名称:是否锁定(locked),数据类型:字符串(string)
- 名称:名称(name),数据类型:字符串(string)
- 名称:父级ID(parent_id),数据类型:字符串(string)
- 名称:永久链接(permalink),数据类型:字符串(string)
- 名称:检索时间(retrieved_on),数据类型:字符串(string)
- 名称:评分(score),数据类型:字符串(string)
- 名称:子版块ID(subreddit_id),数据类型:字符串(string)
- 名称:带前缀的子版块名称(subreddit_name_prefixed),数据类型:字符串(string)
- 名称:子版块类型(subreddit_type),数据类型:字符串(string)
- 名称:总获奖数(total_awards_received),数据类型:字符串(string)
拆分集信息:
- 名称:训练集,字节数:36685468584,示例总数:85000000
下载大小:19967586229
数据集总大小:36685468584
本数据集为从HuggingFaceGECLM/REDDIT_comments中随机抽取的8500万条数据样本。
提供机构:
fsteig



