sorenmulli/nordjylland-news-summarization-subset
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sorenmulli/nordjylland-news-summarization-subset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: summary
dtype: string
- name: text_len
dtype: int64
- name: summary_len
dtype: int64
- name: ind
dtype: int64
splits:
- name: train
num_bytes: 243846
num_examples: 300
download_size: 162666
dataset_size: 243846
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# [WIP] Dataset Card for "nordjylland-news-summarization-subset"
*Please note that this dataset and dataset card both are works in progress. For now refer to the related [thesis](https://sorenmulli.github.io/thesis/thesis.pdf) for all details*
数据集信息:
特征字段:
- 字段名:text,数据类型:字符串(string)
- 字段名:summary,数据类型:字符串(string)
- 字段名:text_len,数据类型:64位整型(int64)
- 字段名:summary_len,数据类型:64位整型(int64)
- 字段名:ind,数据类型:64位整型(int64)
数据集划分:
- 划分名称:训练集(train),占用字节数:243846,样本数量:300
下载大小:162666
数据集总大小:243846
配置项:
- 配置名称:默认配置(default)
数据文件:
- 对应划分:训练集(train),文件路径:data/train-*
# 【开发中】"北日德兰新闻摘要子集"数据集卡片(Dataset Card)
*请注意,本数据集及数据集卡片均处于开发阶段,当前所有详细信息请参阅相关学位论文:https://sorenmulli.github.io/thesis/thesis.pdf*
提供机构:
sorenmulli
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 文本数据,数据类型为字符串。summary: 摘要数据,数据类型为字符串。text_len: 文本长度,数据类型为整数。summary_len: 摘要长度,数据类型为整数。ind: 索引,数据类型为整数。
数据分割
- 训练集:
- 名称:
train - 字节数: 243846
- 样本数: 300
- 名称:
数据集大小
- 下载大小: 162666 字节
- 数据集大小: 243846 字节
配置
- 默认配置:
- 配置名称:
default - 数据文件:
- 分割:
train - 路径:
data/train-*
- 分割:
- 配置名称:



