five

CitiLink-Summ

收藏
arXiv2026-02-19 更新2026-02-20 收录
下载链接:
https://github.com/INESCTEC/citilink-summ
下载链接
链接失效反馈
官方服务:
资源简介:
CitiLink-Summ是由贝拉英特拉大学和波尔图大学联合构建的欧洲葡萄牙语市政会议纪要摘要数据集,包含120份文档和2,880条人工撰写的讨论主题摘要。该数据集源自2021-2024年间葡萄牙六个城市的市政会议记录,经语言学专家团队分段标注并匿名化处理,采用三阶段质量控制流程确保摘要的抽象性和准确性。作为首个针对低资源语言行政文本的摘要基准,其覆盖率和密度指标显示摘要具有中等词汇复用率但高度抽象性,为提升公民政务信息可及性提供了重要研究资源,适用于自然语言处理领域的生成模型训练与评估。

CitiLink-Summ is a European Portuguese municipal meeting minutes summarization dataset jointly constructed by the University of Beira Interior and the University of Porto. It contains 120 documents and 2,880 manually written summaries of discussion topics. The dataset is derived from municipal meeting records of six Portuguese cities spanning from 2021 to 2024, and has been segmented, annotated and anonymized by a team of linguistic experts, with a three-stage quality control process adopted to ensure the abstractness and accuracy of the summaries. As the first summarization benchmark for administrative texts in low-resource languages, its coverage and density metrics demonstrate that the summaries have moderate lexical reuse rates but high abstractness. This dataset provides an important research resource for improving the accessibility of civic government information, and is applicable for the training and evaluation of generative models in the field of natural language processing.
提供机构:
贝拉英特拉大学; 波尔图大学; INESC TEC
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
在市政会议纪要自动摘要研究领域,高质量标注数据的稀缺长期制约着模型发展。CitiLink-Summ的构建遵循严谨的学术流程,从葡萄牙六个城市收集了2021至2024年间的120份市政会议纪要原始文档。研究团队首先将每份纪要人工切分为独立的讨论主题段落,随后由四位具有语言学背景的标注者在两位专家监督下,依据专门制定的摘要撰写指南进行手工摘要创作。整个标注过程包含预读、撰写和评估三个阶段,确保摘要质量的一致性,并对敏感信息进行了匿名化处理,最终形成了包含2880个讨论主题及其对应摘要的高质量语料库。
特点
该数据集在市政文本处理领域展现出鲜明的专业特性。作为欧洲葡萄牙语首份市政会议纪要摘要数据集,其覆盖六个不同城市的行政文档,具备良好的地域代表性。数据集内摘要呈现出中高覆盖度与低密度的抽象化特征,表明摘要虽复用源文本词汇,但极少直接提取长片段,更多通过语义重构实现信息凝练,这对模型的语言生成能力提出了较高要求。数据集采用分层结构组织,每个讨论主题均附带主题标签,并严格划分训练、验证和测试集,为模型开发与评估提供了标准化基准。
使用方法
该数据集主要服务于市政文档自动摘要模型的训练与评估。研究人员可将其用于微调预训练的编码器-解码器模型,如BART、PRIMERA等,或用于评估大语言模型在少样本提示下的摘要生成能力。使用时应遵循数据集的官方划分,将讨论主题文本作为输入,对应的手工摘要作为参考标准。评估可采用ROUGE、BLEU等词汇重叠指标,并结合BERTScore等语义相似度度量,全面衡量生成摘要的质量。数据集的JSON格式便于程序化读取,其附带的摘要指南与代码资源为复现研究提供了完整支持。
背景与挑战
背景概述
在自然语言处理领域,行政文本的自动摘要研究长期面临资源匮乏的挑战,尤其在低资源语言中更为显著。CitiLink-Summ数据集由葡萄牙波尔图大学、贝拉内政大学及INESC TEC研究机构的多位学者于2026年共同创建,旨在填补欧洲葡萄牙语市政会议纪要摘要任务的空白。该数据集聚焦于市政会议纪要中讨论主题的抽象摘要生成,核心研究问题在于如何从冗长、结构复杂的行政文件中提取关键信息,并转化为简洁易懂的摘要。通过收录120份市政会议纪要及对应的2880条人工撰写摘要,该数据集为欧洲葡萄牙语的行政文本处理提供了首个基准资源,对推动低资源语言在公共行政领域的自然语言处理研究具有开创性意义。
当前挑战
CitiLink-Summ数据集致力于解决市政会议纪要的自动摘要生成问题,其核心挑战在于行政文本固有的复杂性:会议纪要通常包含大量专业术语、冗长的法律表述以及多层嵌套的讨论结构,要求模型具备识别核心议题、过滤冗余信息并保持语义连贯的能力。在构建过程中,研究团队面临多重困难:首先,欧洲葡萄牙语缺乏高质量的行政文本摘要数据集,导致数据收集与标注需从零开始;其次,市政文件涉及敏感信息,需进行精细化的匿名化处理以保障隐私;此外,摘要标注需要语言学专家深度参与,以确保摘要的准确性、一致性与适当的抽象程度,这增加了标注成本与质量控制难度。
常用场景
经典使用场景
在自然语言处理领域,市政会议纪要的自动摘要生成面临着文本冗长、结构复杂和领域专业性强的多重挑战。CitiLink-Summ数据集为这一特定场景提供了宝贵的资源,其最经典的使用场景在于训练和评估针对欧洲葡萄牙语市政会议讨论主题的抽象摘要模型。该数据集包含2880个手工撰写的摘要,每个摘要对应一个独立的讨论主题,为模型学习从高度正式的行政文本中提取核心信息并生成简洁概括提供了标准化的训练样本。研究人员利用这一数据集能够系统地探索如何有效处理低资源语言中复杂行政文档的摘要任务,推动该领域的技术进步。
实际应用
在实际应用层面,CitiLink-Summ数据集支撑的系统能够显著提升政府信息的透明度和公民的可及性。市政会议纪要通常内容密集、格式规范,普通公民难以快速把握其要点。基于该数据集开发的自动摘要工具,可以为每项讨论主题生成简明扼要的概要,帮助公众无需通读全文即可了解会议的核心议题与决策结果。这种应用不仅促进了公民对地方政务的知情与监督,也为政府部门提供了高效的信息发布和归档方案,是数字政府建设和智慧城市发展中提升公共服务质量的有效技术途径。
衍生相关工作
围绕CitiLink-Summ数据集,研究者开展了一系列经典的基准评测与模型探索工作。论文中利用BART、PRIMERA等先进的编码器-解码器模型以及Gemini等大语言模型,在该数据集上建立了首个性能基准。这些工作系统地评估了不同架构模型在处理欧洲葡萄牙语行政文本摘要任务时的表现,揭示了模型在词汇重叠和语义保持方面的能力差异。这些基准研究为后续优化方向提供了明确指引,例如探索如何融入讨论主题信息以提升摘要质量,或开发更能适应低资源语言和特定领域术语的预训练与微调策略,持续推动该细分领域的技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作