mNLP-project/gpt2-finetuning-old
收藏Hugging Face2024-06-09 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mNLP-project/gpt2-finetuning-old
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: q_id
dtype: string
- name: title
dtype: string
- name: selftext
dtype: string
- name: category
dtype: string
- name: subreddit
dtype: string
- name: answers.a_id
sequence: string
- name: answers.text
sequence: string
- name: answers.score
sequence: int32
- name: answers.text_urls
sequence:
sequence: string
- name: title_urls
sequence: string
- name: selftext_urls
sequence: string
splits:
- name: train
num_bytes: 83863698.1580693
num_examples: 95682
- name: validation
num_bytes: 10727934.323233085
num_examples: 11500
- name: test
num_bytes: 10727184.139277764
num_examples: 11500
download_size: 60268198
dataset_size: 105318816.62058014
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
提供机构:
mNLP-project
原始信息汇总
数据集概述
数据特征
- q_id: 字符串类型,表示问题的唯一标识符。
- title: 字符串类型,表示问题的标题。
- selftext: 字符串类型,表示问题的正文内容。
- category: 字符串类型,表示问题的分类。
- subreddit: 字符串类型,表示问题所属的子版块。
- answers.a_id: 字符串序列,表示答案的唯一标识符。
- answers.text: 字符串序列,表示答案的文本内容。
- answers.score: 整数序列,表示答案的评分。
- answers.text_urls: 字符串序列的序列,表示答案文本中的URL。
- title_urls: 字符串序列,表示问题标题中的URL。
- selftext_urls: 字符串序列,表示问题正文中的URL。
数据集划分
- train: 训练集,包含95682个样本,大小为83863698.1580693字节。
- validation: 验证集,包含11500个样本,大小为10727934.323233085字节。
- test: 测试集,包含11500个样本,大小为10727184.139277764字节。
数据集大小
- 下载大小: 60268198字节
- 数据集总大小: 105318816.62058014字节
配置
- default: 默认配置,包含训练集、验证集和测试集的数据文件路径。
- train:
data/train-* - validation:
data/validation-* - test:
data/test-*
- train:



