BASSE (BAsque and Spanish Summarization Evaluation)
收藏arXiv2025-03-21 更新2025-03-25 收录
下载链接:
https://github.com/hitz-zentroa/summarization
下载链接
链接失效反馈官方服务:
资源简介:
BASSE数据集由西班牙巴斯克自治区大学的研究团队创建,包含2040个由人工和五种LLM模型生成的摘要,这些摘要基于45篇新闻文章。数据集旨在评估自动文本摘要的评价指标,并为巴斯克语和西班牙语提供首个大规模的摘要数据集。
The BASSE dataset was created by a research team from the University of the Basque Country, Spain. It consists of 2,040 summaries generated by humans and five large language models (LLMs), all of which are derived from 45 news articles. The dataset is designed to evaluate metrics for automatic text summarization, and provides the first large-scale summarization dataset for both Basque and Spanish languages.
提供机构:
西班牙巴斯克自治区大学(UPV/EHU)
创建时间:
2025-03-21
原始信息汇总
BASSE: BAsque and Spanish Summarization Evaluation 数据集概述
数据集简介
BASSE是一个多语言(巴斯克语和西班牙语)数据集,主要用于自动摘要指标和LLM-as-a-Judge模型的元评估。包含90篇新闻文档(每种语言45篇)的自动摘要和人工参考摘要。
数据集内容
BASSE数据集
- 数据来源:使用Anthropics Claude、OpenAIs GPT-4、Reka AIs Reka、Llama3.1和CommandR+生成摘要
- 提示类型:base、core、5W1H、tldr四种提示
- 标注维度:Coherence、Consistency、Fluency、Relevance、5W1H(5点Likert量表)
- 数据格式:JSONL格式,包含以下字段:
idx:唯一标识符(原始出版物URL)round:标注轮次(1、2或3)original_document:原始新闻文档reference_summaries:人工参考摘要(第1、2轮每文档3个,第3轮1个)model_summaries:生成摘要及其人工标注
BasqueSumm数据集
- 数据来源:自动从www.berria.eus编译
- 数据格式:JSON格式,包含以下字段:
date:发布日期(yyyy-mm-dd)url:原始出版物URLcategory:文章主题title:文章标题subtitle:文章副标题summary:标题+副标题(作为参考摘要代理)text:新闻文章正文
使用方式
BASSE数据集加载
python import json basse_data = [json.loads(line) for line in open("eu/BASSE.jsonl")]
代码库使用
-
基于SummEval代码库
-
复现指标与人工标注相关性: bash cd experiments python metrics_exp.py
-
获取模型评估: bash cd experiments python model_eval.py
许可信息
- 许可类型:CC BY-NC-SA 4.0许可证
引用信息
bibtex @misc{barnes-etal-2025-basse, title = "Summarization Metrics for Spanish and Basque: {D}o Automatic Scores and LLM-Judges Correlate with Humans?", author = "Barnes, Jeremy and Perez, Naiara and Bonet-Jover, Alba and Altuna, Begoña", year={2025}, eprint={}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={} }
搜集汇总
数据集介绍

构建方式
BASSE数据集的构建过程分为三个主要步骤:首先从巴斯克语和西班牙语的高质量新闻源中随机选取了45篇新闻文章,确保主题和体裁的多样性;其次通过五种大型语言模型(LLMs)和四种提示策略生成了2040份摘要,包括原始副标题、人工撰写摘要以及自动生成摘要;最后采用多轮专家标注流程,由具有丰富标注经验的NLP语言学家和工程师对每份摘要的五个标准(连贯性、一致性、流畅性、相关性和5W1H信息覆盖度)进行5级李克特量表评估,并通过讨论优化标注指南以提高标注一致性。
使用方法
BASSE数据集主要用于评估自动摘要评价指标和LLM评判模型在非英语语言中的表现。研究者可通过计算自动指标(如ROUGE、BertScore)或LLM评判模型输出与人工标注之间的秩相关系数(Spearman's ρ和Kendall's τ)来进行元评估。使用时应区分不同语言(巴斯克语/西班牙语)和不同摘要标准(如连贯性、事实一致性等)分别分析,并注意数据集领域(新闻文本)对结果可能的影响。数据集还可用于训练或优化多语言摘要评估模型。
背景与挑战
背景概述
BASSE (BAsque and Spanish Summarization Evaluation) 数据集由巴斯克大学(UPV/EHU)的HiTZ中心与阿利坎特大学的研究团队于2025年联合创建,旨在填补非英语文本摘要评估研究的空白。该数据集包含2,040条巴斯克语和西班牙语的抽象摘要,涵盖人工撰写和五种大型语言模型(LLM)生成的文本,每条摘要由专家从连贯性、一致性、流畅性、相关性和5W1H五个维度进行人工评分。作为首个大规模巴斯克语新闻摘要数据集(含22,525篇新闻),BASSE为多语言摘要评估提供了重要基准,推动了自动评价指标与人类判断相关性研究的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决非英语语言(尤其是低资源语言如巴斯克语)摘要评估指标有效性验证的难题,现有自动指标(如ROUGE)和LLM评判模型在英语外的表现尚未明确;在构建层面,需克服跨语言标注一致性差异(西班牙语标注者间一致性显著低于巴斯克语),以及处理LLM生成摘要的幻觉问题与语言混杂现象(6%生成文本偏离目标语言)。此外,5W1H新评估标准的引入要求设计能捕捉信息完整性的量化方法,而传统指标对此表现不佳。
常用场景
经典使用场景
BASSE数据集在自然语言处理领域主要用于评估巴斯克语和西班牙语文本摘要的质量。通过收集2040份人工和大型语言模型生成的摘要,并基于五个标准(连贯性、一致性、流畅性、相关性和5W1H)进行人工评分,该数据集为研究者提供了一个标准化的评估框架。经典使用场景包括对比不同摘要生成模型的表现,以及验证自动评估指标与人工评分的相关性。
解决学术问题
BASSE数据集解决了非英语文本摘要评估中缺乏高质量标注数据的问题。通过提供巴斯克语和西班牙语的大规模人工标注摘要,该数据集使研究者能够系统评估自动摘要评估指标(如ROUGE、BertScore)和大型语言模型作为评判者的效果。其意义在于填补了多语言摘要评估的空白,并为开发更准确的跨语言评估方法提供了基础。
实际应用
在实际应用中,BASSE数据集可用于优化巴斯克语和西班牙语的新闻摘要系统。媒体机构可利用该数据集训练和评估自动摘要模型,以提高新闻内容的可读性和信息密度。此外,教育机构可将其用于语言技术课程的教学案例,帮助学生理解多语言摘要的评估挑战和技术实现。
数据集最近研究
最新研究方向
近年来,BASSE数据集在自然语言处理领域引起了广泛关注,特别是在多语言文本摘要评估方面。该数据集通过收集巴斯克语和西班牙语的抽象摘要,为研究者提供了一个独特的平台,以评估自动摘要评估指标和大型语言模型(LLM)作为评判者的效果。研究重点包括探讨自动评估指标与人类评判之间的相关性,以及LLM在多语言环境下的表现。前沿研究方向包括开发更准确的自动评估方法,特别是在非英语语言中的适用性,以及探索如何利用LLM提高摘要评估的效率和准确性。BASSE数据集的发布为多语言文本摘要研究提供了宝贵资源,推动了该领域的技术进步。
相关研究论文
- 1Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?西班牙巴斯克自治区大学(UPV/EHU) · 2025年
以上内容由遇见数据集搜集并总结生成



