BasqueSumm
收藏Hugging Face2025-11-21 更新2025-11-22 收录
下载链接:
https://huggingface.co/datasets/HiTZ/BasqueSumm
下载链接
链接失效反馈官方服务:
资源简介:
BasqueSumm数据集是从巴斯克语新闻网站www.berria.eus自动编译而成的,包含了新闻文章的发布日期、原文URL、文章类别、标题、副标题、摘要和文本内容。该数据集适用于文本摘要、文本生成和填空等任务,由Jeremy Barnes策划,使用巴斯克语,并遵循知识共享署名-非商业性使用-相同方式共享4.0国际许可。
提供机构:
HiTZ zentroa
创建时间:
2025-11-21
原始信息汇总
BasqueSumm 数据集概述
数据集基本信息
- 数据集名称: BasqueSumm
- 语言: 巴斯克语 (eu)
- 许可协议: CC BY-NC-SA 4.0
- 数据规模: 10万到100万条之间
- 任务类别: 文本摘要、文本生成、掩码填充
数据来源与构建
- 数据来源: 自动从www.berria.eus网站收集
- 构建工具: 使用trafilatura工具提取文本
- 存储库: https://github.com/hitz-zentroa/summarization
数据结构
每条数据实例包含以下字段:
date: 文章发布日期,格式为"yyyy-mm-dd"url: 原始发布文章的URLcategory: 文章主题分类(如经济、社会等)title: 文章标题subtitle: 文章副标题summary: 标题+副标题组合,作为参考摘要text: 新闻文章正文
维护信息
- 维护者: Jeremy Barnes
- 相关论文: Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?
- 论文链接: https://arxiv.org/abs/2503.17039
引用信息
bibtex @misc{barnes2025summarizationmetricsspanishbasque, title={Summarization Metrics for {S}panish and {B}asque: Do Automatic Scores and {LLM}-Judges Correlate with Humans?}, author={Jeremy Barnes and Naiara Perez and Alba Bonet-Jover and Begoña Altuna}, year={2025}, eprint={2503.17039}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.17039}, }
搜集汇总
数据集介绍

构建方式
在巴斯克语自然语言处理领域,BasqueSumm数据集通过自动化流程构建而成,其源数据来自权威新闻平台www.berria.eus。采用trafilatura文本提取工具系统抓取新闻内容,每条数据包含发布日期、原文链接、主题分类等结构化字段。特别值得注意的是,该数据集创新性地将新闻标题与副标题拼接形成摘要参考文本,这种设计为自动摘要任务提供了高质量的标注基础。
特点
作为专注于巴斯克语的文本摘要资源,该数据集具备显著的语种特异性与规模优势。其内容涵盖社会、经济等多元主题,每条样本均包含完整的元数据体系,包括日期戳、分类标签和层级化文本结构。通过标题与副标题的自然融合形成摘要标签,既保留了新闻文本的核心语义,又避免了人工标注的主观偏差,为低资源语言处理任务提供了珍贵的实验材料。
使用方法
该数据集主要服务于文本摘要与生成任务的研究实践,使用者可通过标准数据加载接口获取结构化样本。在模型训练阶段,可将原始新闻正文作为输入文本,拼接后的标题副标题作为目标摘要,构建端到端的摘要生成流程。鉴于其非商业许可特性,研究者需遵循CC BY-NC-SA 4.0协议规范,在学术探索与技术验证的框架内充分发挥该数据集的科研价值。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的文本生成任务长期面临数据稀缺的困境。巴斯克语作为欧洲孤立语言,其数字资源尤为匮乏。2025年由Jeremy Barnes等研究者构建的BasqueSumm数据集,通过自动化采集工具trafilatura从权威媒体平台www.berria.eus系统提取新闻文本,形成了包含十万至百万量级样本的摘要生成数据集。该资源由巴斯克政府与西班牙数字化部门联合资助,不仅填补了巴斯克语自动摘要任务的空白,更为研究多语言模型在低资源场景下的性能评估提供了重要基准。
当前挑战
巴斯克语摘要任务面临双重挑战:在领域问题层面,低资源语言的语义表征不充分导致摘要模型易产生事实扭曲,同时巴斯克语复杂的形态句法特征对生成文本的流畅性构成严峻考验。在构建过程中,媒体文本的异构格式需要设计多级解析策略,而标题与副标题融合为参考摘要的简化方案,虽提升构建效率却可能损失原文的语义层次,需通过后处理机制确保摘要质量与原文的语义一致性。
常用场景
经典使用场景
在自然语言处理领域,BasqueSumm数据集为巴斯克语文本摘要任务提供了重要资源。该数据集通过自动采集新闻文章及其标题与副标题构建而成,其中标题与副标题的组合作为参考摘要,为模型训练与评估奠定基础。其典型应用场景包括开发与优化针对巴斯克语的自动摘要模型,尤其在低资源语言处理研究中,该数据集填补了巴斯克语摘要数据的空白,促进了语言技术的均衡发展。
实际应用
在实际应用中,BasqueSumm数据集可用于构建巴斯克语新闻摘要系统,帮助媒体机构快速生成新闻要点,提升信息传播效率。同时,该数据集支持教育领域开发语言学习工具,辅助学习者理解巴斯克语文本内容。在公共服务方面,它还能促进政府与社区信息的自动化处理,增强多语言社会的信息可及性。
衍生相关工作
围绕BasqueSumm数据集,衍生出多项经典研究工作,例如原论文中探讨的自动摘要指标与人类评估相关性研究,为多语言摘要评估提供了新见解。此外,该数据集激发了巴斯克语文本生成与掩码语言建模等任务的探索,推动了低资源语言处理技术的创新。相关成果进一步促进了跨语言摘要模型的比较与分析,丰富了自然语言处理领域的多样性。
以上内容由遇见数据集搜集并总结生成



