CitiLink-Minutes
收藏CitiLink-Minutes 数据集概述
数据集基本信息
- 数据集名称:CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes
- 官方仓库地址:https://github.com/INESCTEC/citilink-dataset
- 数据集探索平台:https://dataset.citilink.inesctec.pt
- 完整数据集访问链接:https://doi.org/10.25747/7KG6-1K22
- 许可证:CC-BY-ND 4.0
- 项目状态:已完成且稳定
数据集描述
CitiLink-Minutes 数据集是一个葡萄牙市政会议纪要的综合集合,提供了来自地方政府会议的结构化和带注释的数据。该数据集包含超过一百万个词元,并具有全面的多层注释,涵盖(1)个人信息、(2)元数据、(3)讨论主题和(4)投票结果,在六个葡萄牙城市中总计超过38,000个独立注释。
目标与用途
- 项目作用:为研究人员、数据科学家和公民技术开发者提供结构化的市政治理数据,支持分析地方政府决策、投票模式、政策讨论和不同葡萄牙城市的公民参与。
- 目标用户:
- 研究地方治理和公共管理的研究人员
- 从事自然语言处理和文本挖掘的数据科学家
- 构建透明度和问责制工具的公民技术开发者
- 分析投票行为和政策趋势的政治科学家
- 调查市政政府活动的记者
- 解决的问题:市政会议纪要通常以非结构化的PDF或文本文档形式发布,难以提取见解、进行比较分析或跨时间和城市跟踪特定主题。该数据集将这些文档转换为具有丰富元数据和注释的结构化、可查询格式。
数据集统计
数据集涵盖六个葡萄牙城市,总计包含超过一百万个词元和数万个注释。
| 城市 | 词元数 | 实体数 | 关系数 |
|---|---|---|---|
| Alandroal | 51,987 | 2,902 | 1,796 |
| Campo Maior | 161,889 | 4,187 | 1,474 |
| Covilhã | 235,381 | 4,518 | 2,585 |
| Fundão | 189,128 | 1,915 | 983 |
| Guimarães | 206,361 | 3,547 | 2,154 |
| Porto | 151,766 | 3,306 | 2,170 |
| 总计 | 1,016,825 | 20,375 | 11,162 |
关键指标说明:
- 词元:会议纪要中的总词数/词元数
- 实体:带注释的实体(参与者、日期、地点、组织等)
- 关系:实体之间带注释的关系(投票记录、参与情况等)
重要说明:
- 完整数据集:完整的统计数据如上所示,但完整的数据集文件尚未在此仓库中提供。
- 样本数据:此仓库仅包含6个带注释的文档作为演示。
- 数据集探索器:要探索完整数据集,请访问数据集探索平台(需密码访问)。
数据集结构与格式
文件组织
数据集按城市组织为6个JSON文件:
data/ ├── Alandroal.json ├── Campomaior.json ├── Covilha.json ├── Fundao.json ├── Guimaraes.json └── Porto.json
JSON模式概述
每个JSON文件遵循分层结构,主要包含以下顶级字段:
municipalities:包含城市对象的数组。municipality:城市名称。minutes:会议纪要对象数组。minute_id:唯一标识符(格式:Municipality_cm_XXX_YYYY-MM-DD)。full_text:会议纪要的完整文本。personal_info:匿名化个人信息标识符列表。metadata:包含会议信息的结构化元数据。agenda_items:会议讨论的议程项目列表。
数据字段详解
元数据 (metadata)
包含会议的结构化信息:
municipality:城市名称。year:会议年份。minute_number:官方纪要编号及在full_text中的字符偏移量。date:会议日期及字符偏移量。location:会议地点及字符偏移量。meeting_type:会议类型(如“ordinary”、“extraordinary”)及字符偏移量。begin_time:会议开始时间及字符偏移量。end_time:会议结束时间及字符偏移量。participants:会议参与者列表,包含角色、政党归属和出席状态。name:参与者姓名。type:参与者角色。party:政党归属。present:出席状态(“present”或“absent”)。
议程项目 (agenda_items)
包含会议讨论的议程项目:
item_id:顺序议程项目编号。item_title:议程项目标题。subjects:议程项目内的讨论主题列表。subject_id:主题的唯一标识符。text:主题讨论的完整文本。subject:主题的关键点及字符偏移量。voting:该主题的投票记录列表。voters:结构化投票信息(赞成、反对、弃权)。global_tally:总体投票结果及字符偏移量。voting_evidence:投票结果的文本证据及字符偏移量。
theme:主题。topics:主题的分类主题列表。
字符偏移量说明:start和end字段引用full_text字段中的位置,支持精确的文本提取和基于跨度的注释。
数据匿名化
重要:数据集中个人可识别信息(PII)已匿名化以保护隐私。每个星号字符(*)代表原始文本中的一个字符。
- 示例:
- 姓名:
******************(原始姓名为18个字符) - 文档编号:
***或***** - 识别号码:
*************
- 姓名:
- 例外:担任公职的政治人物(如市长、议员)未被匿名化,因为他们是公众人物,但工作人员和普通公民被匿名化。
数据集子集与划分
专用子集
为便于不同用例并减少数据处理开销,数据集在data/subsets/目录下提供四个专用子集:
metadata:仅包含元数据注释。subjects_of_discussion:包含核心主题注释。voting:包含完整的主题注释(包括投票记录)。personal_info:仅包含个人信息注释。
好处:文件大小更小、加载和处理时间更快、针对特定注释层进行分析、保持原始数据集结构以实现兼容性。
数据集划分
数据集包含一个按时间顺序划分的训练/验证/测试集,旨在模拟真实世界的部署场景。文档按时间顺序排序并划分为:
- 训练集:60%(72份文档)- 较早的会议纪要。
- 验证集:20%(24份文档)- 中间时期的会议纪要。
- 测试集:20%(24份文档)- 最新的会议纪要。
划分信息保存在
data/split_info.json中。
使用与加载
样本数据集
sample_data/文件夹中提供了样本数据集,包含每个城市一份市政会议纪要(共6份文档)。
完整数据集
完整数据集(6个城市的120份市政会议纪要)受数据使用协议保护,将在相关研究论文被接受发表后通过以下DOI提供: DOI:https://doi.org/10.25747/7KG6-1K22
加载数据(Python示例)
python import json with open(data/Alandroal.json, r, encoding=utf-8) as f: alandroal_data = json.load(f)
查询示例
数据集支持多种查询,例如获取所有会议日期、所有与会参与者、所有议程项目标题、所有一致通过的投票决定、讨论特定主题(如“环境”)的所有主题等。
基线模型
相关研究论文为此数据集的三项关键任务建立了基线性能:
- 元数据识别:从会议纪要中提取结构化元数据。
- 投票识别:识别投票记录。
- 主题分类:对讨论主题进行分类。
微调模型:所有针对上述任务进行微调的BERTimbau模型均在HuggingFace上公开可用。
注释指南
详细的注释说明,包括注释程序、质量控制措施和完整的模式定义,可在文档docs/citilink_annotation_guidelines.pdf中找到。

- 1CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes贝拉英特拉大学; 波尔图大学; INESC TEC; 澳门大学 · 2026年



