five

Cicero Database

收藏
github2022-12-16 更新2024-05-31 收录
下载链接:
https://github.com/cicero-data/cicero-nlp
下载链接
链接失效反馈
官方服务:
资源简介:
Cicero数据库是一个全面且高度准确的数据库,涵盖了全球9个国家中的当选官员和立法区的信息。该数据集由官方政府网站上的公开信息组成,并被组织成不同的类别,包括姓名、电话号码、传真号码和其他联系方式以及社交媒体标识。数据集还包含了来自官方政府网站的源URL。历史上,这个包含超过57,000名历史和现任官员的大型数据集是通过广泛的人工标注和数据录入工作收集和管理的。

The Cicero database is a comprehensive and highly accurate repository that encompasses information on elected officials and legislative districts across nine countries globally. This dataset is composed of publicly available information from official government websites, organized into various categories including names, phone numbers, fax numbers, other contact details, and social media identifiers. Additionally, the dataset includes source URLs from official government websites. Historically, this extensive dataset, which contains over 57,000 historical and current officials, has been collected and managed through extensive manual annotation and data entry efforts.
创建时间:
2022-08-23
原始信息汇总

Cicero数据库概述

Cicero数据库是一个包含全球9个国家选举官员和立法区域的全面且高度准确的数据库。该数据库从官方政府网站收集公开信息,并将其分类整理,包括姓名、电话号码、传真号码、联系方式以及社交媒体标识等。此外,数据库还包含来自官方政府网站的源URL。历史上,这个包含超过57,000名历史和现任官员的大型数据集通过广泛的人工标注和数据录入进行收集和管理。

数据处理步骤

  1. 网页抓取:从Cicero数据库中存储的URL地址抓取政治家的网页,并将这些网页保存为HTML文件。
  2. 网页清洗与文本转换:清洗网页中冗余的HTML元素(如HTML标签),将网页内容转换为纯文本。
  3. BIO标签化:对纯文本中的感兴趣信息进行BIO标签化,生成train.spacydev.spacy文件,用于训练和开发集。

模型训练

使用spaCy库进行命名实体识别(NER)模型训练,需要以下四个组件:

  1. base_config.cfg:存储所有训练设置和超参数的配置文件蓝图。
  2. config.cfg:实际用于指定训练设置和超参数的配置文件。
  3. train.spacy:训练数据。
  4. dev.spacy:评估数据。

通过以下命令开始训练:

python -m spaCy train config.cfg --output ./ --paths.train /content/train.spacy --paths.dev /content/dev.spacy

搜集汇总
数据集介绍
main_image_url
构建方式
Cicero数据库的构建过程主要依赖于从官方政府网站公开信息中提取数据,并通过人工标注和数据录入的方式进行整理。数据涵盖了全球9个国家的民选官员和立法区信息,包括姓名、电话号码、传真号码、社交媒体标识符等详细联系方式。此外,数据还通过网页抓取、清洗和BIO标注等步骤进一步处理,以确保数据的准确性和可用性。
特点
Cicero数据库以其全面性和高准确性著称,涵盖了超过57,000名历史及现任官员的详细信息。数据按类别清晰划分,便于用户快速检索所需信息。此外,数据集还包含了官方政府网站的源URL,增强了数据的可追溯性。其独特的BIO标注机制使得数据在自然语言处理任务中具有较高的应用价值。
使用方法
Cicero数据库的使用方法主要围绕自然语言处理任务展开,特别是命名实体识别(NER)模型的训练。用户可以通过spaCy库进行模型训练,利用提供的`train.spacy`和`dev.spacy`文件作为训练和验证数据。通过配置`base_config.cfg`和`config.cfg`文件,用户可以自定义训练参数,并使用wandb工具监控训练过程,确保实验的可重复性和结果的可视化。
背景与挑战
背景概述
Cicero数据库是一个全球范围内涵盖9个国家选举官员和立法选区的综合性高精度数据库,由Azavea公司创建并维护。该数据库基于官方政府网站上的公开信息构建,涵盖了包括姓名、电话号码、传真号码、社交媒体标识符等在内的多种信息类别,并整合了官方来源的URL链接。自创建以来,Cicero数据库通过大量的人工标注和数据录入工作,积累了超过57,000名历史及现任官员的详细信息。该数据库为政治学、公共政策研究以及选举分析等领域提供了重要的数据支持,推动了相关研究的深入发展。
当前挑战
Cicero数据库在构建和应用过程中面临多重挑战。首先,数据采集依赖于官方政府网站的公开信息,这些信息的格式和更新频率不一致,导致数据清洗和整合的复杂性增加。其次,由于涉及多个国家的数据,语言和命名规范的差异进一步增加了数据处理的难度。此外,构建过程中需要大量的人工标注,这不仅耗时耗力,还可能引入人为误差。在应用层面,如何高效地从海量数据中提取有价值的信息,并确保数据的实时性和准确性,是研究人员面临的主要挑战。这些挑战不仅影响了数据库的构建效率,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
Cicero数据库在全球范围内收集了超过57,000名历史及现任官员的详细信息,涵盖了9个国家的选举官员和立法区划数据。该数据集广泛应用于政治学、公共政策研究以及社会科学领域,特别是在分析官员行为、政策制定过程以及选举系统效率等方面具有重要价值。研究人员可以通过该数据集深入探讨官员的决策模式、政策影响力以及选民与官员之间的互动关系。
解决学术问题
Cicero数据库解决了政治学和公共政策研究中的多个关键问题。首先,它提供了全面的官员信息,使得研究人员能够系统地分析官员的背景、政策倾向及其对立法过程的影响。其次,数据集中的详细联系信息为研究选民与官员之间的沟通渠道提供了基础。此外,该数据集还为跨国的比较研究提供了可能,帮助学者理解不同政治体系下的官员行为和政策效果。
衍生相关工作
Cicero数据库的发布催生了一系列相关研究和技术工具的开发。例如,基于该数据集的政治网络分析工具能够可视化官员之间的关系网络,揭示政策制定中的潜在联盟和利益集团。此外,该数据集还被用于开发自然语言处理模型,特别是命名实体识别(NER)任务,以自动化提取和分析政治文本中的关键信息。这些衍生工作不仅扩展了Cicero数据库的应用范围,还推动了政治学和计算社会科学领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作