SamiaT/NorSumm

Name: SamiaT/NorSumm
Creator: SamiaT
Published: 2024-05-20 22:43:37
License: 暂无描述

Hugging Face2024-05-20 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SamiaT/NorSumm

下载链接

链接失效反馈

官方服务：

资源简介：

NorSumm是第一个手动创建的挪威新闻摘要数据集，完全用挪威语创建。该数据集包含63篇新闻文章的378个手动生成的摘要。每篇新闻文章由三位挪威母语者进行摘要，并且每个生成的摘要根据原始摘要的语言被翻译成挪威书面形式（Bokmål或Nynorsk）。数据集由人类注释者策划，由MediaFutures研究中心资助，并由挪威语言技术工作组共享。数据集的语言为挪威Bokmål和Nynorsk，许可证为CC0-1.0。数据集主要用于NLP模型基准测试。

提供机构：

SamiaT

原始信息汇总

数据集卡片：NorSumm

数据集概述

NorSumm 是第一个手动创建的挪威新闻摘要数据集，完全在挪威语中创建。该数据集包含 378 个手动生成的摘要，对应 63 篇新闻文章。每篇新闻文章由三位母语为挪威语的人士进行摘要，生成的摘要根据原始摘要的语言形式翻译为挪威语的书面形式（Bokmål 或 Nynorsk）。

数据集详情

数据集描述

该数据集包含新闻文章及其对应的六个生成的摘要（由三个人分别生成，并翻译为 Bokmål 和 Nynorsk）。新闻文章来自挪威语依赖树库数据（NDT）的 Bokmål 部分。

语言(NLP): 挪威语 Bokmål 和 Nynorsk。
许可证: CC0-1.0

数据集来源

存储库: https://github.com/SamiaTouileb/NorSumm

使用场景

该数据集旨在用于 NLP 模型基准测试。

数据集结构

[更多信息待补充]

数据集创建

[更多信息待补充]

偏见、风险和限制

用户应了解数据集的风险、偏见和技术限制。更多信息待补充。

5,000+

优质数据集

54 个

任务类型

进入经典数据集