CitiLink-Minutes

Name: CitiLink-Minutes
Creator: 贝拉英特拉大学; 波尔图大学; INESC TEC; 澳门大学
Published: 2026-02-13 00:22:55
License: 暂无描述

arXiv2026-02-13 更新2026-02-15 收录

下载链接：

https://github.com/INESCTEC/citilink-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CitiLink-Minutes是由葡萄牙贝拉英特拉大学、波尔图大学等机构联合创建的多层标注市政会议记录数据集，包含120条欧洲葡萄牙语市政会议记录，涵盖2021至2024年间的六座城市数据。数据集总规模超过100万tokens，所有个人标识信息均经过脱敏处理，每条记录由两名训练有素的标注人员进行三层标注（元数据、讨论主题、投票结果），总计超过3.8万条独立标注。数据通过人工精选和标准化流程构建，采用双标注加专家校验的质量控制机制，并遵循FAIR原则发布。该数据集主要应用于信息检索和自然语言处理领域，旨在促进市政决策透明度研究，支持元数据提取、主题分类等下游任务开发。

CitiLink-Minutes is a multi-layer annotated municipal meeting minutes dataset jointly created by institutions including the University of Beira Interior, University of Porto, and other organizations in Portugal. It contains 120 European Portuguese municipal meeting minutes, covering data from six cities between 2021 and 2024. The total size of the dataset exceeds 1 million Tokens, and all personally identifiable information has been anonymized. Each record is annotated in three layers (metadata, discussion topics, and voting results) by two well-trained annotators, resulting in a total of over 38,000 independent annotations. The dataset is constructed through manual screening and standardization procedures, adopts a quality control mechanism of dual annotation plus expert verification, and is released in accordance with the FAIR Principles. It is mainly applied in the fields of information retrieval and natural language processing, aiming to promote research on municipal decision-making transparency and support the development of downstream tasks such as metadata extraction and topic classification.

提供机构：

贝拉英特拉大学; 波尔图大学; INESC TEC; 澳门大学

创建时间：

2026-02-13

原始信息汇总

CitiLink-Minutes 数据集概述

数据集基本信息

数据集名称：CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes
官方仓库地址：https://github.com/INESCTEC/citilink-dataset
数据集探索平台：https://dataset.citilink.inesctec.pt
完整数据集访问链接：https://doi.org/10.25747/7KG6-1K22
许可证：CC-BY-ND 4.0
项目状态：已完成且稳定

数据集描述

CitiLink-Minutes 数据集是一个葡萄牙市政会议纪要的综合集合，提供了来自地方政府会议的结构化和带注释的数据。该数据集包含超过一百万个词元，并具有全面的多层注释，涵盖（1）个人信息、（2）元数据、（3）讨论主题和（4）投票结果，在六个葡萄牙城市中总计超过38,000个独立注释。

目标与用途

项目作用：为研究人员、数据科学家和公民技术开发者提供结构化的市政治理数据，支持分析地方政府决策、投票模式、政策讨论和不同葡萄牙城市的公民参与。
目标用户：
- 研究地方治理和公共管理的研究人员
- 从事自然语言处理和文本挖掘的数据科学家
- 构建透明度和问责制工具的公民技术开发者
- 分析投票行为和政策趋势的政治科学家
- 调查市政政府活动的记者
解决的问题：市政会议纪要通常以非结构化的PDF或文本文档形式发布，难以提取见解、进行比较分析或跨时间和城市跟踪特定主题。该数据集将这些文档转换为具有丰富元数据和注释的结构化、可查询格式。

数据集统计

数据集涵盖六个葡萄牙城市，总计包含超过一百万个词元和数万个注释。

城市	词元数	实体数	关系数
Alandroal	51,987	2,902	1,796
Campo Maior	161,889	4,187	1,474
Covilhã	235,381	4,518	2,585
Fundão	189,128	1,915	983
Guimarães	206,361	3,547	2,154
Porto	151,766	3,306	2,170
总计	1,016,825	20,375	11,162

关键指标说明：

词元：会议纪要中的总词数/词元数
实体：带注释的实体（参与者、日期、地点、组织等）
关系：实体之间带注释的关系（投票记录、参与情况等）

重要说明：

完整数据集：完整的统计数据如上所示，但完整的数据集文件尚未在此仓库中提供。
样本数据：此仓库仅包含6个带注释的文档作为演示。
数据集探索器：要探索完整数据集，请访问数据集探索平台（需密码访问）。

数据集结构与格式

文件组织

数据集按城市组织为6个JSON文件：

data/ ├── Alandroal.json ├── Campomaior.json ├── Covilha.json ├── Fundao.json ├── Guimaraes.json └── Porto.json

JSON模式概述

每个JSON文件遵循分层结构，主要包含以下顶级字段：

municipalities：包含城市对象的数组。
- municipality：城市名称。
- minutes：会议纪要对象数组。
  - minute_id：唯一标识符（格式：Municipality_cm_XXX_YYYY-MM-DD）。
  - full_text：会议纪要的完整文本。
  - personal_info：匿名化个人信息标识符列表。
  - metadata：包含会议信息的结构化元数据。
  - agenda_items：会议讨论的议程项目列表。

数据字段详解

元数据 (`metadata`)

包含会议的结构化信息：

municipality：城市名称。
year：会议年份。
minute_number：官方纪要编号及在full_text中的字符偏移量。
date：会议日期及字符偏移量。
location：会议地点及字符偏移量。
meeting_type：会议类型（如“ordinary”、“extraordinary”）及字符偏移量。
begin_time：会议开始时间及字符偏移量。
end_time：会议结束时间及字符偏移量。
participants：会议参与者列表，包含角色、政党归属和出席状态。
- name：参与者姓名。
- type：参与者角色。
- party：政党归属。
- present：出席状态（“present”或“absent”）。

议程项目 (`agenda_items`)

包含会议讨论的议程项目：

item_id：顺序议程项目编号。
item_title：议程项目标题。
subjects：议程项目内的讨论主题列表。
- subject_id：主题的唯一标识符。
- text：主题讨论的完整文本。
- subject：主题的关键点及字符偏移量。
- voting：该主题的投票记录列表。
  - voters：结构化投票信息（赞成、反对、弃权）。
  - global_tally：总体投票结果及字符偏移量。
  - voting_evidence：投票结果的文本证据及字符偏移量。
- theme：主题。
- topics：主题的分类主题列表。

字符偏移量说明：start和end字段引用full_text字段中的位置，支持精确的文本提取和基于跨度的注释。

数据匿名化

重要：数据集中个人可识别信息（PII）已匿名化以保护隐私。每个星号字符（*）代表原始文本中的一个字符。

示例：
- 姓名：******************（原始姓名为18个字符）
- 文档编号：*** 或 *****
- 识别号码：*************
例外：担任公职的政治人物（如市长、议员）未被匿名化，因为他们是公众人物，但工作人员和普通公民被匿名化。

数据集子集与划分

专用子集

为便于不同用例并减少数据处理开销，数据集在data/subsets/目录下提供四个专用子集：

metadata：仅包含元数据注释。
subjects_of_discussion：包含核心主题注释。
voting：包含完整的主题注释（包括投票记录）。
personal_info：仅包含个人信息注释。

好处：文件大小更小、加载和处理时间更快、针对特定注释层进行分析、保持原始数据集结构以实现兼容性。

数据集划分

数据集包含一个按时间顺序划分的训练/验证/测试集，旨在模拟真实世界的部署场景。文档按时间顺序排序并划分为：

训练集：60%（72份文档）- 较早的会议纪要。
验证集：20%（24份文档）- 中间时期的会议纪要。
测试集：20%（24份文档）- 最新的会议纪要。划分信息保存在data/split_info.json中。

使用与加载

样本数据集

sample_data/文件夹中提供了样本数据集，包含每个城市一份市政会议纪要（共6份文档）。

完整数据集

完整数据集（6个城市的120份市政会议纪要）受数据使用协议保护，将在相关研究论文被接受发表后通过以下DOI提供： DOI：https://doi.org/10.25747/7KG6-1K22

加载数据（Python示例）

python import json with open(data/Alandroal.json, r, encoding=utf-8) as f: alandroal_data = json.load(f)

查询示例

数据集支持多种查询，例如获取所有会议日期、所有与会参与者、所有议程项目标题、所有一致通过的投票决定、讨论特定主题（如“环境”）的所有主题等。

基线模型

相关研究论文为此数据集的三项关键任务建立了基线性能：

元数据识别：从会议纪要中提取结构化元数据。
投票识别：识别投票记录。
主题分类：对讨论主题进行分类。

微调模型：所有针对上述任务进行微调的BERTimbau模型均在HuggingFace上公开可用。

注释指南

详细的注释说明，包括注释程序、质量控制措施和完整的模式定义，可在文档docs/citilink_annotation_guidelines.pdf中找到。

搜集汇总

数据集介绍

构建方式

在地方治理领域，市政会议记录作为决策过程的核心文献，其结构化分析长期受限于标注资源的匮乏。CitiLink-Minutes 数据集通过与合作市政当局建立伙伴关系，系统性地收集了2021年至2024年间六个葡萄牙城市的官方会议纪要。依据预定的选择标准，从479份原始记录中筛选出120份具有代表性的纪要，确保了会议类型、议程项目数量及公共可及性的多样性。每份纪要均由经过培训的标注员采用双重标注流程，在个人信息、元数据、讨论主题和投票结果四个互补维度上进行人工标注，并由资深语言学家进行最终校验，从而构建了一个包含超过100万词符和38,000余项标注的多层结构化语料库。

特点

该数据集在市政文本资源中展现出独特的深度与广度。其核心特征在于提供了覆盖四个语义层的精细标注：个人身份信息层实现了隐私保护下的去标识化处理；元数据层系统捕获了会议时间、地点、参与者等结构化信息；讨论主题层不仅识别了议程项目，还关联了主题描述与多标签分类；投票层则详细记录了投票证据、投票者立场及总体结果。数据集包含超过20,000个实体和11,000个关系，体现了高度的语义密度。此外，其遵循FAIR原则发布，并配备了交互式仪表盘，为研究者提供了透明且可探索的数据访问途径。

使用方法

CitiLink-Minutes 为市政文本的计算分析提供了多任务基准。研究者可利用其丰富的标注结构开展信息检索与自然语言处理任务，例如基于元数据层进行实体识别，基于讨论主题层进行多标签主题分类，或基于投票层进行投票行为与结果分析。数据集已按时间顺序划分为训练、验证和测试集，支持模型在真实场景下的时序泛化能力评估。配套发布的基线模型结果，为结构化信息提取、主题分类等任务提供了可复现的参考起点。用户可通过GitHub仓库或持久标识符获取数据，并利用提供的JSON结构进行定制化分析，推动地方政府文本的智能化处理研究。

背景与挑战

背景概述

在地方治理领域，市政会议记录作为决策过程的正式文献，承载着政策讨论与表决结果等关键信息，然而长期以来缺乏高质量标注数据集，制约了信息检索与自然语言处理技术在此类文本上的应用。为填补这一空白，由葡萄牙波尔图大学、INESC TEC等机构的研究团队于2024年发布了CitiLink-Minutes数据集。该数据集收录了2021年至2024年间六个葡萄牙城市的120份市政会议记录，采用欧洲葡萄牙语，并首次提供了涵盖个人信息、元数据、讨论主题与表决结果的多层标注体系，总计超过三万八千项人工标注。这一资源遵循FAIR原则公开，为市政文本的自动化分析建立了重要基准，推动了政府决策透明化与计算社会科学研究的交叉融合。

当前挑战

CitiLink-Minutes数据集旨在解决市政会议记录的结构化信息提取与语义理解问题，其核心挑战体现在两个方面。在领域问题层面，市政记录具有篇幅冗长、格式异构、信息嵌套深等特点，使得自动抽取议题、追踪表决关系等任务面临语义模糊性与结构变异性的双重困难。在构建过程中，研究团队需克服标注复杂性带来的挑战：多层标注体系要求协调不同语义层级的一致性；个人信息的匿名化处理需平衡数据效用与隐私保护；跨市政机构的文本差异则对标注指南的普适性与标注者间一致性提出了更高要求。这些挑战共同凸显了市政文本计算化处理的独特难度。

常用场景

经典使用场景

在地方政府治理与透明化研究的背景下，CitiLink-Minutes数据集为自然语言处理领域提供了首个针对欧洲葡萄牙语市政会议纪要的多层标注资源。其经典使用场景集中于对官方书面会议记录进行结构化信息抽取与语义分析，例如自动识别会议元数据、提取讨论议题主题、追踪投票结果与参与者立场。研究者可利用其精细的实体与关系标注，训练和评估模型在市政文本这一特定领域上的性能，为理解地方决策的复杂叙事结构奠定基础。

衍生相关工作

围绕CitiLink-Minutes数据集，已衍生出多项经典的基准任务与模型评估工作。论文本身定义了元数据识别、投票识别和多标签主题分类三项核心任务，并提供了基于BERTimbau和生成式模型的基线结果，为后续研究设立了可比较的基准。这些工作展示了编码器模型在结构化信息抽取任务上的优势。该数据集的结构与标注框架也为后续研究探索更细粒度的语义分析（如因果关系识别、演讲行为分类）以及跨语言市政文本比较研究提供了可扩展的基础。

数据集最近研究