mNLP-project/gpt2-finetuning
收藏Hugging Face2024-06-09 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mNLP-project/gpt2-finetuning
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: q_id
dtype: string
- name: title
dtype: string
- name: selftext
dtype: string
- name: category
dtype: string
- name: subreddit
dtype: string
- name: answers.a_id
sequence: string
- name: answers.text
sequence: string
- name: answers.score
sequence: int32
- name: answers.text_urls
sequence:
sequence: string
- name: title_urls
sequence: string
- name: selftext_urls
sequence: string
splits:
- name: train
num_bytes: 83653004.72615547
num_examples: 95682
- name: validation
num_bytes: 10725547.620844496
num_examples: 11500
- name: test
num_bytes: 10724797.436889173
num_examples: 11500
download_size: 60364706
dataset_size: 105103349.78388914
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
提供机构:
mNLP-project
原始信息汇总
数据集概述
数据特征
- q_id: 问题ID,数据类型为字符串。
- title: 标题,数据类型为字符串。
- selftext: 正文内容,数据类型为字符串。
- category: 类别,数据类型为字符串。
- subreddit: 子版块,数据类型为字符串。
- answers.a_id: 答案ID序列,数据类型为字符串。
- answers.text: 答案文本序列,数据类型为字符串。
- answers.score: 答案评分序列,数据类型为整数。
- answers.text_urls: 答案文本中的URL序列,数据类型为字符串序列。
- title_urls: 标题中的URL序列,数据类型为字符串。
- selftext_urls: 正文内容中的URL序列,数据类型为字符串。
数据集划分
- train: 训练集,包含95682个样本,大小为83653004.72615547字节。
- validation: 验证集,包含11500个样本,大小为10725547.620844496字节。
- test: 测试集,包含11500个样本,大小为10724797.436889173字节。
数据集大小
- download_size: 下载大小为60364706字节。
- dataset_size: 数据集总大小为105103349.78388914字节。
配置
- config_name: default
- data_files:
- train: 路径为
data/train-*。 - validation: 路径为
data/validation-*。 - test: 路径为
data/test-*。
- train: 路径为
- data_files:



