euclaise/reddit-instruct
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/euclaise/reddit-instruct
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: post_title
dtype: string
- name: post_text
dtype: string
- name: post_scores
dtype: int64
- name: comment_text
dtype: string
- name: comment_score
dtype: int64
splits:
- name: train
num_bytes: 126565640.88161694
num_examples: 84784
- name: test
num_bytes: 2985602.021174206
num_examples: 2000
download_size: 67560005
dataset_size: 129551242.90279114
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
license: mit
---
Filtered data from the following subreddits:
"AskAcademia",
"AskComputerScience",
"AskEconomics",
"AskProgramming",
"AskScienceFiction",
"AskSocialScience",
"AskStatistics",
"AskTechnology",
"askmath",
"askphilosophy",
"askpsychology",
"askscience",
"changemyview",
"explainlikeimfive"
提供机构:
euclaise
原始信息汇总
数据集信息
特征
- post_title: 帖子标题,数据类型为字符串。
- post_text: 帖子内容,数据类型为字符串。
- post_scores: 帖子评分,数据类型为整数(int64)。
- comment_text: 评论内容,数据类型为字符串。
- comment_score: 评论评分,数据类型为整数(int64)。
数据分割
- train: 训练集,包含84784个样本,大小为126565640.88161694字节。
- test: 测试集,包含2000个样本,大小为2985602.021174206字节。
数据大小
- 下载大小: 67560005字节
- 数据集大小: 129551242.90279114字节
配置
- default: 默认配置
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
许可证
- MIT



