Deojoandco/reddit_ah_v3
收藏Hugging Face2023-06-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Deojoandco/reddit_ah_v3
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: url
dtype: string
- name: id
dtype: string
- name: num_comments
dtype: int64
- name: name
dtype: string
- name: title
dtype: string
- name: body
dtype: string
- name: score
dtype: int64
- name: upvote_ratio
dtype: float64
- name: distinguished
dtype: string
- name: over_18
dtype: bool
- name: created_utc
dtype: float64
- name: comments
list:
- name: body
dtype: string
- name: created_utc
dtype: float64
- name: distinguished
dtype: string
- name: id
dtype: string
- name: permalink
dtype: string
- name: score
dtype: int64
- name: best_num_comments
dtype: int64
splits:
- name: train
num_bytes: 12479446
num_examples: 2598
download_size: 7277543
dataset_size: 12479446
---
# Dataset Card for "reddit_ah_v3"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:url(网址),数据类型:字符串(string)
- 名称:id(标识符),数据类型:字符串(string)
- 名称:num_comments(评论数),数据类型:64位整数(int64)
- 名称:name,数据类型:字符串(string)
- 名称:title(标题),数据类型:字符串(string)
- 名称:body(正文),数据类型:字符串(string)
- 名称:score(得分),数据类型:64位整数(int64)
- 名称:upvote_ratio(点赞率),数据类型:64位浮点数(float64)
- 名称:distinguished(标识字段),数据类型:字符串(string)
- 名称:over_18(18禁标识),数据类型:布尔值(bool)
- 名称:created_utc(UTC创建时间戳),数据类型:64位浮点数(float64)
- 名称:comments(评论列表),其内部子字段:
- 名称:body(评论正文),数据类型:字符串(string)
- 名称:created_utc(评论UTC创建时间戳),数据类型:64位浮点数(float64)
- 名称:distinguished(评论标识字段),数据类型:字符串(string)
- 名称:id(评论标识符),数据类型:字符串(string)
- 名称:permalink(永久链接),数据类型:字符串(string)
- 名称:score(评论得分),数据类型:64位整数(int64)
- 名称:best_num_comments(最佳评论数),数据类型:64位整数(int64)
数据划分:
- 名称:train(训练集),字节数:12479446,样本数量:2598
下载大小:7277543
数据集总大小:12479446
# 「reddit_ah_v3」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
Deojoandco
原始信息汇总
数据集概述
数据集名称
- 名称:reddit_ah_v3
数据集特征
- url:字符串类型
- id:字符串类型
- num_comments:整数类型
- name:字符串类型
- title:字符串类型
- body:字符串类型
- score:整数类型
- upvote_ratio:浮点数类型
- distinguished:字符串类型
- over_18:布尔类型
- created_utc:浮点数类型
- comments:列表类型,包含以下子特征:
- body:字符串类型
- created_utc:浮点数类型
- distinguished:字符串类型
- id:字符串类型
- permalink:字符串类型
- score:整数类型
- best_num_comments:整数类型
数据集分割
- train:
- 字节数:12479446
- 示例数:2598
数据集大小
- 下载大小:7277543字节
- 数据集大小:12479446字节



