NickyNicky/global-news-dataset
收藏Hugging Face2024-03-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/global-news-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: article_id
dtype: int64
- name: source_id
dtype: string
- name: source_name
dtype: string
- name: author
dtype: string
- name: title
dtype: string
- name: description
dtype: string
- name: url
dtype: string
- name: url_to_image
dtype: string
- name: published_at
dtype: string
- name: content
dtype: string
- name: category
dtype: string
- name: full_content
dtype: string
splits:
- name: train
num_bytes: 431631383
num_examples: 105375
download_size: 186302974
dataset_size: 431631383
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 文章ID(article_id):数据类型为int64
- 来源ID(source_id):数据类型为字符串
- 来源名称(source_name):数据类型为字符串
- 作者(author):数据类型为字符串
- 标题(title):数据类型为字符串
- 描述(description):数据类型为字符串
- 资源链接(url):数据类型为字符串
- 图片链接(url_to_image):数据类型为字符串
- 发布时间(published_at):数据类型为字符串
- 正文内容(content):数据类型为字符串
- 分类标签(category):数据类型为字符串
- 完整正文(full_content):数据类型为字符串
数据集划分:
- 训练集(train):字节占用量为431631383,样本总数为105375
下载总大小:186302974字节,数据集总存储大小:431631383字节
配置项:
- 默认配置(default):对应训练拆分集的数据文件路径为data/train-*
提供机构:
NickyNicky
原始信息汇总
数据集概述
数据集特征
- article_id: 整数类型
- source_id: 字符串类型
- source_name: 字符串类型
- author: 字符串类型
- title: 字符串类型
- description: 字符串类型
- url: 字符串类型
- url_to_image: 字符串类型
- published_at: 字符串类型
- content: 字符串类型
- category: 字符串类型
- full_content: 字符串类型
数据集划分
- 训练集 (train):
- 数据量: 431,631,383 字节
- 样本数: 105,375
数据集大小
- 下载大小: 186,302,974 字节
- 总大小: 431,631,383 字节



