five

fsteig/reddit-20gb

收藏
Hugging Face2026-03-05 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/fsteig/reddit-20gb
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* dataset_info: features: - name: archived dtype: string - name: author dtype: string - name: author_fullname dtype: string - name: body dtype: string - name: comment_type dtype: string - name: controversiality dtype: string - name: created_utc dtype: string - name: edited dtype: string - name: gilded dtype: string - name: id dtype: string - name: link_id dtype: string - name: locked dtype: string - name: name dtype: string - name: parent_id dtype: string - name: permalink dtype: string - name: retrieved_on dtype: string - name: score dtype: string - name: subreddit_id dtype: string - name: subreddit_name_prefixed dtype: string - name: subreddit_type dtype: string - name: total_awards_received dtype: string splits: - name: train num_bytes: 36685468584 num_examples: 85000000 download_size: 19967586229 dataset_size: 36685468584 --- random sample of 85M items from HuggingFaceGECLM/REDDIT_comments

配置项: - 配置名称:默认 数据文件: - 拆分集:训练集 路径:data/train-* 数据集信息: 特征字段: - 名称:已归档(archived),数据类型:字符串(string) - 名称:作者(author),数据类型:字符串(string) - 名称:作者全名(author_fullname),数据类型:字符串(string) - 名称:正文内容(body),数据类型:字符串(string) - 名称:评论类型(comment_type),数据类型:字符串(string) - 名称:争议度(controversiality),数据类型:字符串(string) - 名称:UTC创建时间(created_utc),数据类型:字符串(string) - 名称:是否编辑(edited),数据类型:字符串(string) - 名称:获赠金徽章(gilded),数据类型:字符串(string) - 名称:ID(id),数据类型:字符串(string) - 名称:链接ID(link_id),数据类型:字符串(string) - 名称:是否锁定(locked),数据类型:字符串(string) - 名称:名称(name),数据类型:字符串(string) - 名称:父级ID(parent_id),数据类型:字符串(string) - 名称:永久链接(permalink),数据类型:字符串(string) - 名称:检索时间(retrieved_on),数据类型:字符串(string) - 名称:评分(score),数据类型:字符串(string) - 名称:子版块ID(subreddit_id),数据类型:字符串(string) - 名称:带前缀的子版块名称(subreddit_name_prefixed),数据类型:字符串(string) - 名称:子版块类型(subreddit_type),数据类型:字符串(string) - 名称:总获奖数(total_awards_received),数据类型:字符串(string) 拆分集信息: - 名称:训练集,字节数:36685468584,示例总数:85000000 下载大小:19967586229 数据集总大小:36685468584 本数据集为从HuggingFaceGECLM/REDDIT_comments中随机抽取的8500万条数据样本。
提供机构:
fsteig
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作