blackhc/SteamSHP_filtered
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blackhc/SteamSHP_filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: post_id
dtype: string
- name: domain
dtype: string
- name: upvote_ratio
dtype: float64
- name: history
dtype: string
- name: c_root_id_A
dtype: string
- name: c_root_id_B
dtype: string
- name: created_at_utc_A
dtype: int64
- name: created_at_utc_B
dtype: int64
- name: score_A
dtype: int64
- name: score_B
dtype: int64
- name: human_ref_A
dtype: string
- name: human_ref_B
dtype: string
- name: labels
dtype: int64
- name: seconds_difference
dtype: float64
- name: score_ratio
dtype: float64
splits:
- name: train
num_bytes: 211365452
num_examples: 99727
- name: validation
num_bytes: 11356085
num_examples: 5473
- name: test
num_bytes: 35748464
num_examples: 18409
download_size: 0
dataset_size: 258470001
---
# Dataset Card for "SteamSHP_filtered"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:帖子ID(post_id),数据类型:字符串(string)
- 名称:领域(domain),数据类型:字符串(string)
- 名称:点赞率(upvote_ratio),数据类型:float64
- 名称:历史记录(history),数据类型:字符串(string)
- 名称:评论根ID A(c_root_id_A),数据类型:字符串(string)
- 名称:评论根ID B(c_root_id_B),数据类型:字符串(string)
- 名称:UTC创建时间A(created_at_utc_A),数据类型:int64
- 名称:UTC创建时间B(created_at_utc_B),数据类型:int64
- 名称:得分A(score_A),数据类型:int64
- 名称:得分B(score_B),数据类型:int64
- 名称:人工参考A(human_ref_A),数据类型:字符串(string)
- 名称:人工参考B(human_ref_B),数据类型:字符串(string)
- 名称:标签(labels),数据类型:int64
- 名称:时间差(秒)(seconds_difference),数据类型:float64
- 名称:得分比率(score_ratio),数据类型:float64
数据划分:
- 名称:训练集,字节数:211365452,样本数:99727
- 名称:验证集,字节数:11356085,样本数:5473
- 名称:测试集,字节数:35748464,样本数:18409
下载大小:0
数据集总大小:258470001
# "SteamSHP_filtered" 数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
blackhc
原始信息汇总
数据集概述
数据集名称
SteamSHP_filtered
数据集特征
- post_id: 字符串类型
- domain: 字符串类型
- upvote_ratio: 浮点数类型
- history: 字符串类型
- c_root_id_A: 字符串类型
- c_root_id_B: 字符串类型
- created_at_utc_A: 整数类型
- created_at_utc_B: 整数类型
- score_A: 整数类型
- score_B: 整数类型
- human_ref_A: 字符串类型
- human_ref_B: 字符串类型
- labels: 整数类型
- seconds_difference: 浮点数类型
- score_ratio: 浮点数类型
数据集分割
- 训练集:
- 大小: 211365452 字节
- 示例数量: 99727
- 验证集:
- 大小: 11356085 字节
- 示例数量: 5473
- 测试集:
- 大小: 35748464 字节
- 示例数量: 18409
数据集大小
- 下载大小: 0 字节
- 数据集总大小: 258470001 字节



