five

NorSumm

收藏
arXiv2025-01-14 更新2025-01-16 收录
下载链接:
https://github.com/SamiaTouileb/NorSumm/tree/main, https://huggingface.co/datasets/SamiaT/NorSumm/tree/main
下载链接
链接失效反馈
资源简介:
NorSumm数据集由卑尔根大学和奥斯陆大学的研究团队创建,包含378条挪威新闻文章的人工摘要。数据集旨在为生成式语言模型的抽象摘要能力提供基准测试,每个新闻文章提供三个不同的候选摘要,分别以Bokmål和Nynorsk两种挪威语书面形式呈现。数据集来源于挪威事件抽取数据集EDEN的子集,包含63篇新闻文章,每篇文章由三名具有新闻学背景的挪威语母语者撰写摘要。摘要的创建过程遵循详细的指南,确保摘要自然、多样且符合新闻学标准。该数据集的应用领域主要集中在挪威语生成式语言模型的评估和优化,旨在解决挪威语新闻摘要生成中的挑战。

The NorSumm dataset, created by a research team from the University of Bergen and the University of Oslo, contains 378 manually crafted abstracts of Norwegian news articles. Designed to serve as a benchmark for the abstracting capabilities of generative language models, the dataset provides three distinct candidate summaries for each news article, presented in both Bokmål and Nynorsk written forms of Norwegian. The dataset is derived from a subset of the Norwegian Event Extraction dataset EDEN, encompassing 63 news articles, each summarized by three Norwegian native speakers with a background in journalism. The abstraction process adheres to detailed guidelines to ensure that the summaries are natural, diverse, and meet the standards of journalism. The primary focus of the dataset's application lies in the evaluation and optimization of Norwegian generative language models, aiming to address the challenges in Norwegian news article summarization.
提供机构:
卑尔根大学, 奥斯陆大学
创建时间:
2025-01-14
搜集汇总
数据集介绍
main_image_url
构建方式
NorSumm数据集的构建基于挪威新闻文章的高质量人工摘要,旨在为生成式语言模型的抽象摘要能力提供基准测试。数据集中的每篇新闻文章均包含由挪威母语者撰写的三种不同候选摘要,且所有摘要均以挪威语的两种书面形式——Bokmål和Nynorsk提供。数据来源为挪威事件提取数据集EDEN中的新闻文章子集,经过精心筛选和标注,确保数据的高质量和多样性。
使用方法
NorSumm数据集主要用于评估生成式语言模型在挪威语新闻摘要任务中的表现。研究人员可以通过该数据集对模型进行零样本评估,使用ROUGE-L和BERTScore等标准摘要评估指标进行性能测量。此外,数据集还可用于人工评估,通过对比人工摘要与模型生成的摘要,进一步分析模型的优缺点。数据集的开源性质确保了其可访问性和可重复性,为未来的研究提供了坚实的基础。
背景与挑战
背景概述
NorSumm数据集由挪威卑尔根大学和奥斯陆大学的研究团队于2025年推出,旨在为挪威语的生成式语言模型提供高质量的抽象摘要基准。该数据集包含挪威新闻文章的人工撰写摘要,每篇文章均提供三种不同的候选摘要,涵盖挪威语的两种书面变体——Bokmål和Nynorsk。通过这一数据集,研究人员能够评估生成式模型在挪威语摘要任务中的表现,填补了挪威语摘要数据集的空白,并为相关领域的研究提供了重要的基准资源。
当前挑战
NorSumm数据集在构建和应用过程中面临多重挑战。首先,挪威语的两种书面变体(Bokmål和Nynorsk)在语言结构和表达方式上存在显著差异,要求模型能够同时处理两种变体并生成自然流畅的摘要。其次,数据集的构建依赖于高质量的人工标注,标注过程不仅耗时且需要专业的语言能力,以确保摘要的准确性和多样性。此外,由于挪威语资源的稀缺性,现有的生成式模型在挪威语任务上的表现普遍较弱,如何提升模型在低资源语言环境下的摘要能力成为一大挑战。最后,数据集的目标是推动抽象摘要技术的发展,而抽象摘要本身在保持原文核心信息的同时,还需生成自然且连贯的文本,这对模型的生成能力提出了更高的要求。
常用场景
经典使用场景
NorSumm数据集主要用于评估生成式语言模型在挪威语新闻摘要任务中的表现。该数据集提供了高质量的、由挪威语母语者撰写的新闻摘要,涵盖了挪威语的两种书面变体——Bokmål和Nynorsk。每个新闻文章都附有三个不同的候选摘要,确保了摘要的多样性和自然性。研究人员可以利用该数据集来测试和比较不同模型在生成抽象摘要时的能力,尤其是在处理挪威语这种低资源语言时的表现。
解决学术问题
NorSumm数据集解决了挪威语新闻摘要领域缺乏高质量基准数据集的问题。通过提供多个由人类撰写的摘要,该数据集为评估生成式语言模型的摘要能力提供了可靠的参考标准。此外,数据集还支持对模型生成的摘要进行人工评估,帮助研究人员更好地理解模型在生成自然语言摘要时的优缺点。这一数据集的出现填补了挪威语摘要研究的空白,推动了低资源语言自然语言处理领域的发展。
实际应用
在实际应用中,NorSumm数据集可以用于新闻出版行业的自动化摘要生成。许多新闻出版商已经开始使用生成式语言模型来生成新闻摘要,以提高内容分发的效率。通过使用NorSumm数据集,模型可以生成更符合挪威语语言习惯的摘要,提升用户体验。此外,该数据集还可用于教育领域,帮助语言学习者更好地理解挪威语新闻的结构和内容。
数据集最近研究
最新研究方向
近年来,NorSumm数据集在自然语言生成领域的研究中引起了广泛关注,特别是在挪威语新闻摘要生成任务中。该数据集为挪威语的两种书面变体(Bokmål和Nynorsk)提供了高质量的人工撰写摘要,为生成式语言模型的抽象摘要能力提供了基准测试。当前的研究方向主要集中在如何利用该数据集提升多语言生成模型的性能,尤其是在低资源语言环境下的表现。通过对比人工撰写摘要与模型生成摘要,研究者们能够更深入地理解生成模型在捕捉语言细微差异和上下文信息方面的局限性。此外,该数据集还为探索多文档摘要、跨语言摘要生成等前沿课题提供了宝贵资源,推动了挪威语自然语言处理技术的发展。
相关研究论文
  • 1
    Benchmarking Abstractive Summarisation: A Dataset of Human-authored Summaries of Norwegian News Articles卑尔根大学, 奥斯陆大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作