BASSE
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/HiTZ/BASSE
下载链接
链接失效反馈官方服务:
资源简介:
BASSE是一个多语言(巴斯克语和西班牙语)的数据集,主要用于自动摘要指标和LLM-as-a-Judge模型的元评估。该数据集包含了90篇新闻文档的自动摘要,这些摘要由不同的模型生成,并经过人工标注评分。
提供机构:
HiTZ zentroa
创建时间:
2025-11-19
原始信息汇总
BASSE数据集概述
数据集简介
BASSE是一个多语言(巴斯克语和西班牙语)数据集,主要用于自动摘要指标的元评估和LLM-as-a-Judge模型评估。
基本信息
- 数据集名称: BASSE (BAsque and Spanish Summarization Evaluation)
- 语言: 西班牙语(es)、巴斯克语(eu)
- 许可证: CC BY-NC-SA 4.0
- 规模: <1K
- 任务类别: 摘要生成、文本生成
数据集构成
配置信息
- 西班牙语配置(es): 990个样本,7.36 MB
- 巴斯克语配置(eu): 990个样本,5.65 MB
数据特征
每个实例包含以下字段:
idx: 唯一标识符url: 原始文档URLdocument: 原始新闻文档summary: 摘要文本model: 摘要生成模型prompt: 提示类型coherence: 连贯性人工标注分数consistency: 一致性人工标注分数fluency: 流畅性人工标注分数relevance: 相关性人工标注分数5W1H: 5W1H人工标注分数round: 标注轮次references: 参考摘要列表
数据生成与标注
摘要生成
- 使用5个LLM模型生成摘要:Claude、GPT-4o、Reka、Llama 3.1 Instruct、Command R+
- 每个模型使用4种不同提示:base、core、5W1H、tldr
- 包含人工生成的参考摘要
人工标注
- 在5点Likert量表上标注5个维度:连贯性、一致性、流畅性、相关性、5W1H
- 分3轮标注:第1-2轮各3名标注者,第3轮1名标注者
数据统计
西班牙语和巴斯克语各包含:
| 标注轮次 | 文档数 | 摘要总数 | 小标题 | 人工摘要 | LLM摘要 |
|---|---|---|---|---|---|
| 第1轮 | 10 | 240 | 10 | 30 | 200 |
| 第2轮 | 5 | 120 | 5 | 15 | 100 |
| 第3轮 | 30 | 630 | 30 | 0 | 600 |
| 总计 | 45 | 990 | 45 | 45 | 900 |
相关资源
- 代码仓库: https://github.com/hitz-zentroa/summarization
- 论文: https://arxiv.org/abs/2503.17039
引用信息
bibtex @misc{barnes2025summarizationmetricsspanishbasque, title={Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?}, author={Jeremy Barnes and Naiara Perez and Alba Bonet-Jover and Begoña Altuna}, year={2025}, eprint={2503.17039}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.17039}, }
搜集汇总
数据集介绍

构建方式
在文本摘要评估领域,BASSE数据集采用多阶段构建方法,基于90篇新闻文档(西班牙语和巴斯克语各45篇)生成多样化摘要。通过五种前沿大语言模型(Claude、GPT-4o、Reka、Llama 3.1 Instruct和Command R+)配合四种不同提示策略(base、core、5W1H、tldr),系统性地生成900个机器摘要。同时收录45个人工撰写摘要和45个原文小标题,形成总计990个样本的评估集合。所有摘要均经过专业标注人员在连贯性、一致性、流畅性、相关性和5W1H五个维度进行五级李克特量表标注,标注过程分三轮实施以确保数据质量。
特点
该数据集最显著的特征体现在其双语架构与多维评估体系。同时涵盖西班牙语和巴斯克语两种语言资源,为低资源语言研究提供重要支撑。数据集包含三种摘要类型:大模型生成摘要、人工撰写摘要和原文小标题,这种多样性为研究不同生成方式的优劣提供了丰富素材。每个样本配备完整的元数据信息,包括生成模型、提示策略、标注轮次等,支持细粒度的分析研究。特别值得关注的是其标注体系,不仅包含传统摘要质量维度,还创新性地引入5W1H要素评估,为摘要内容完整性分析开辟了新视角。
使用方法
研究者可通过HuggingFace平台直接加载BASSE数据集,该数据集按语言分为西班牙语(es)和巴斯克语(eu)两个配置。每个样本包含原始文档、摘要文本、参考摘要及多维人工评分数据,支持端到端的摘要质量评估实验。数据集主要适用于自动摘要指标的元评估研究,可用于验证各类自动评估指标与人工评价的相关性。同时支持大语言模型作为评判者的能力评估,通过对比不同模型和提示策略生成的摘要质量,为优化摘要生成技术提供实证依据。数据集的标注轮次信息还为评估者间一致性研究提供了便利条件。
背景与挑战
背景概述
随着自然语言处理技术的飞速发展,自动文本摘要系统在多语言环境下的评估需求日益凸显。BASSE数据集由Jeremy Barnes等学者于2025年创建,聚焦于巴斯克语和西班牙语的双语摘要评估研究。该数据集通过整合五种前沿大语言模型与四种提示策略,系统构建了包含人工标注与自动生成的摘要语料,旨在推动跨语言摘要质量评估范式的创新。其多轮标注机制与精细的质量维度设计,为低资源语言的自然语言处理研究提供了重要基准。
当前挑战
在摘要质量评估领域,传统自动指标与人类评判的一致性始终是核心难题。BASSE构建过程中面临双重挑战:其一是多语言数据稀缺性导致的质量控制困境,特别是巴斯克语作为低资源语言的标注资源有限;其二是跨模型摘要生成的多样性控制,需平衡不同提示策略产生的风格差异。此外,保持多轮标注间评分标准的一致性,以及处理人工标注与自动生成摘要的对比分析,均为该数据集构建过程中的关键技术瓶颈。
常用场景
经典使用场景
在文本摘要质量评估领域,BASSE数据集通过整合巴斯克语和西班牙语的多语言新闻文档,为自动摘要度量标准的元评估提供了基准平台。该数据集汇集了五种前沿大语言模型生成的摘要及其人工标注的质量维度评分,涵盖连贯性、一致性、流畅性、相关性和5W1H要素,成为比较不同提示策略与模型性能差异的核心实验场。
衍生相关工作
受BASSE启发的研究延伸出多个重要方向,包括基于多轮标注的评估者间一致性分析框架、跨语言提示工程优化方法,以及低资源语言摘要质量传递学习模型。这些工作显著提升了SummEval等传统评估范式在罗曼语系语言中的适应性,为构建泛欧语言摘要评估标准提供了理论基础。
数据集最近研究
最新研究方向
在文本摘要评估领域,BASSE数据集正推动多语言自动评估范式的革新。该数据集通过整合巴斯克语与西班牙语的双语标注框架,为大型语言模型作为评判者的有效性研究提供了关键基准。当前研究聚焦于探索不同提示策略对摘要质量维度的影响,涵盖连贯性、一致性及信息覆盖度等核心指标。随着跨语言自然语言处理技术的演进,该数据集正成为评估文化适应性摘要模型的重要工具,推动低资源语言与主流语言在生成质量评估层面的对齐研究。
以上内容由遇见数据集搜集并总结生成



