faisaltareque/consum_v8
收藏Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/faisaltareque/consum_v8
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: language
dtype: string
- name: language_code
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: summary
dtype: string
- name: text
dtype: string
- name: keyword
dtype: string
- name: english_url
dtype: string
- name: extractiveness
dtype: float64
- name: summary_words_length
dtype: int64
- name: summary_sentences_length
dtype: int64
- name: summary_digit_occurrences
dtype: int64
- name: entities
dtype: string
- name: entity_count
dtype: int64
- name: specificity
dtype: float64
- name: present_entities
dtype: string
- name: keyword_json
dtype: string
splits:
- name: train
num_bytes: 3598107802
num_examples: 480429
- name: val
num_bytes: 119212985
num_examples: 16003
- name: test
num_bytes: 281339338
num_examples: 37389
download_size: 1660933620
dataset_size: 3998660125
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: val
path: data/val-*
- split: test
path: data/test-*
---
提供机构:
faisaltareque
原始信息汇总
数据集概述
数据集特征
- language: 数据类型为字符串
- language_code: 数据类型为字符串
- url: 数据类型为字符串
- title: 数据类型为字符串
- summary: 数据类型为字符串
- text: 数据类型为字符串
- keyword: 数据类型为字符串
- english_url: 数据类型为字符串
- extractiveness: 数据类型为浮点数
- summary_words_length: 数据类型为整数
- summary_sentences_length: 数据类型为整数
- summary_digit_occurrences: 数据类型为整数
- entities: 数据类型为字符串
- entity_count: 数据类型为整数
- specificity: 数据类型为浮点数
- present_entities: 数据类型为字符串
- keyword_json: 数据类型为字符串
数据集划分
- train: 大小为3598107802字节,包含480429个样本
- val: 大小为119212985字节,包含16003个样本
- test: 大小为281339338字节,包含37389个样本
数据集大小
- 下载大小: 1660933620字节
- 数据集总大小: 3998660125字节
配置文件
- config_name: default
- data_files:
- train: 路径为data/train-*
- val: 路径为data/val-*
- test: 路径为data/test-*



