tollefj/NORTS
收藏Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tollefj/NORTS
下载链接
链接失效反馈官方服务:
资源简介:
NORTS是一个挪威语主题摘要数据集,基于NEWs Topic-based Summarization Dataset (NEWTS) 使用1.3B NLLB模型翻译而来。数据集包含训练集和测试集,分别有2400和600个样本。特征包括AssignmentId、docId、article、tid1、tid2、words1、words2、phrases1、phrases2、sentences1、sentences2、summary1、summary2等。
NORTS是一个挪威语主题摘要数据集,基于NEWs Topic-based Summarization Dataset (NEWTS) 使用1.3B NLLB模型翻译而来。数据集包含训练集和测试集,分别有2400和600个样本。特征包括AssignmentId、docId、article、tid1、tid2、words1、words2、phrases1、phrases2、sentences1、sentences2、summary1、summary2等。
提供机构:
tollefj
原始信息汇总
NORTS - Norwegian Topic-based Summarization Dataset
数据集配置
- 默认配置:
- 训练集:路径为
data/train-* - 测试集:路径为
data/test-*
- 训练集:路径为
数据集信息
-
特征:
AssignmentId:类型为stringdocId:类型为stringarticle:类型为stringtid1:类型为int64tid2:类型为int64words1:类型为stringwords2:类型为stringphrases1:类型为stringphrases2:类型为stringsentences1:类型为stringsentences2:类型为stringsummary1:类型为stringsummary2:类型为string__index_level_0__:类型为int64
-
分割:
- 训练集:
- 字节数:11384802
- 样本数:2400
- 测试集:
- 字节数:2979312
- 样本数:600
- 训练集:
-
下载大小:7539242 字节
-
数据集大小:14364114 字节



