Farjfar/SGS-politics-test
收藏Hugging Face2024-05-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Farjfar/SGS-politics-test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: body_cleaned
dtype: string
- name: id
dtype: string
- name: subreddit
dtype: string
- name: year
dtype: int64
- name: annotation1
dtype: string
- name: annotation2
dtype: string
- name: gold_annotation
dtype: string
- name: bio_annotation
sequence: string
- name: ids
sequence: int64
- name: tokenized_body_cleaned
sequence: string
- name: continuation
dtype: string
- name: first_two_sentences
dtype: string
- name: continuation_tokenized
sequence: string
- name: tokenized_length
dtype: int64
- name: ids_continuation
sequence: int64
splits:
- name: test
num_bytes: 2460979
num_examples: 403
download_size: 884016
dataset_size: 2460979
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
数据集信息如下:
一、数据特征:
1. 清理后正文(body_cleaned):字符串类型
2. 标识符(id):字符串类型
3. Reddit子社区(subreddit):字符串类型
4. 年份(year):64位整型
5. 标注1(annotation1):字符串类型
6. 标注2(annotation2):字符串类型
7. 金标准标注(gold_annotation):字符串类型
8. BIO标注(bio_annotation):字符串序列类型
9. 标识符序列(ids):64位整型序列类型
10. 清理后正文的Token化结果(tokenized_body_cleaned):字符串序列类型
11. 续写文本(continuation):字符串类型
12. 前两个句子(first_two_sentences):字符串类型
13. 续写文本的Token化结果(continuation_tokenized):字符串序列类型
14. Token化长度(tokenized_length):64位整型
15. 续写文本标识符序列(ids_continuation):64位整型序列类型
二、数据集划分:仅包含测试集(test),该划分的字节大小为2460979,样本总量为403。
三、相关尺寸参数:下载大小为884016字节,数据集总大小为2460979字节。
四、数据集配置:采用默认配置(default),其数据文件对应测试集划分,文件路径为data/test-*。
提供机构:
Farjfar
原始信息汇总
数据集概述
数据集特征
- body_cleaned: 数据类型 - string
- id: 数据类型 - string
- subreddit: 数据类型 - string
- year: 数据类型 - int64
- annotation1: 数据类型 - string
- annotation2: 数据类型 - string
- gold_annotation: 数据类型 - string
- bio_annotation: 数据类型 - sequence: string
- ids: 数据类型 - sequence: int64
- tokenized_body_cleaned: 数据类型 - sequence: string
- continuation: 数据类型 - string
- first_two_sentences: 数据类型 - string
- continuation_tokenized: 数据类型 - sequence: string
- tokenized_length: 数据类型 - int64
- ids_continuation: 数据类型 - sequence: int64
数据集分割
- 测试集 (test):
- 数据大小: 2460979 字节
- 示例数量: 403
数据集大小
- 下载大小: 884016 字节
- 数据集大小: 2460979 字节
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



