SamiaT/NorSumm
收藏Hugging Face2024-05-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SamiaT/NorSumm
下载链接
链接失效反馈官方服务:
资源简介:
NorSumm是第一个手动创建的挪威新闻摘要数据集,完全用挪威语创建。该数据集包含63篇新闻文章的378个手动生成的摘要。每篇新闻文章由三位挪威母语者进行摘要,并且每个生成的摘要根据原始摘要的语言被翻译成挪威书面形式(Bokmål或Nynorsk)。数据集由人类注释者策划,由MediaFutures研究中心资助,并由挪威语言技术工作组共享。数据集的语言为挪威Bokmål和Nynorsk,许可证为CC0-1.0。数据集主要用于NLP模型基准测试。
NorSumm是第一个手动创建的挪威新闻摘要数据集,完全用挪威语创建。该数据集包含63篇新闻文章的378个手动生成的摘要。每篇新闻文章由三位挪威母语者进行摘要,并且每个生成的摘要根据原始摘要的语言被翻译成挪威书面形式(Bokmål或Nynorsk)。数据集由人类注释者策划,由MediaFutures研究中心资助,并由挪威语言技术工作组共享。数据集的语言为挪威Bokmål和Nynorsk,许可证为CC0-1.0。数据集主要用于NLP模型基准测试。
提供机构:
SamiaT
原始信息汇总
数据集卡片:NorSumm
数据集概述
NorSumm 是第一个手动创建的挪威新闻摘要数据集,完全在挪威语中创建。该数据集包含 378 个手动生成的摘要,对应 63 篇新闻文章。每篇新闻文章由三位母语为挪威语的人士进行摘要,生成的摘要根据原始摘要的语言形式翻译为挪威语的书面形式(Bokmål 或 Nynorsk)。
数据集详情
数据集描述
该数据集包含新闻文章及其对应的六个生成的摘要(由三个人分别生成,并翻译为 Bokmål 和 Nynorsk)。新闻文章来自挪威语依赖树库数据(NDT)的 Bokmål 部分。
- 语言(NLP): 挪威语 Bokmål 和 Nynorsk。
- 许可证: CC0-1.0
数据集来源
使用场景
该数据集旨在用于 NLP 模型基准测试。
数据集结构
[更多信息待补充]
数据集创建
[更多信息待补充]
偏见、风险和限制
用户应了解数据集的风险、偏见和技术限制。更多信息待补充。



