The CongoNames Corpus
收藏github2026-02-03 更新2026-01-26 收录
下载链接:
https://github.com/bernard-ng/drc-names-corpus
下载链接
链接失效反馈官方服务:
资源简介:
CONGONAMES是刚果民主共和国(DRC)第一个大规模个人名字语料库,源自公开的国家考试记录,包含超过800万个名字条目,并标准化和丰富了包括性别和地区来源的元数据。该数据集为分析非洲语言最多样化国家之一的命名习惯提供了丰富的机会。
CONGONAMES is the first large-scale personal name corpus of the Democratic Republic of the Congo (DRC). Derived from publicly available national exam records, it contains over 8 million name entries, with standardized and enriched metadata including gender and regional origin. This dataset provides valuable opportunities for analyzing naming conventions in one of the most linguistically diverse countries in Africa.
创建时间:
2026-01-25
原始信息汇总
The CongoNames Corpus 数据集概述
数据集基本信息
- 数据集名称:The CongoNames Corpus (CONGONAMES)
- 数据来源:刚果民主共和国(DRC)的国家公开考试记录
- 数据规模:包含超过800万条姓名条目
- 核心内容:刚果民主共和国个人姓名的大规模语料库
数据集特点与价值
- 首创性:首个来自刚果民主共和国的大规模个人姓名语料库
- 丰富元数据:数据经过标准化处理,并丰富了包括性别和地区来源在内的元数据
- 研究价值:为分析非洲语言最多样化国家之一的命名惯例提供了丰富机会
- 应用支持:旨在支持非洲自然语言处理、专名学和社会科学的研究,并解决刚果及非洲个人姓名资源匮乏的问题
数据处理流程
数据处理采用可复现的流水线,包括从PDF文档中提取和规范化姓名数据,主要使用自动化解析和基于正则表达式的格式化方法。
数据导出文件
所有导出的CSV文件均位于 dataset/gold/ 目录下,并规范化为小写字符串。
dataset/gold/names.csv
包含候选人完整姓名及基本元数据。
- 列:id, name, sex, year, region, filename, line
dataset/gold/statistics.csv
包含学校级别的统计信息。
- 列:index, name, code, entries, pass, fail, entries_f, entries_m, pass_f, pass_m, fail_f, fail_m, year, region, filename
dataset/gold/names_featured.csv
在names.csv基础上增加了姓名特征分析。
- 额外列:words, length, category, province
dataset/gold/names_unique.csv
包含去重后的唯一姓名条目。
- 列:id, name, sex, year, region, filename, line
dataset/gold/names_components.csv
包含从完整姓名中提取出的各个组成部分。
- 额外列:full_name, component
dataset/gold/names_unstructured.csv
包含从消融文本中提取的非结构化姓名字符串。
- 列:name, filename, line
搜集汇总
数据集介绍

构建方式
在非洲语言资源相对匮乏的背景下,CONGONAMES语料库的构建采用了系统化的数据采集与处理流程。该数据集源自刚果民主共和国的国家公开考试记录,通过自动化脚本从PDF文档中提取原始文本信息。利用正则表达式进行文本格式化与标准化,将超过800万条姓名条目清洗并结构化,同时标注了性别与地理来源等元数据。这一可复现的处理管道确保了数据的一致性与可靠性,为研究刚果命名传统提供了扎实的基础。
特点
CONGONAMES语料库作为首个大规模刚果人名数据集,其突出特点在于覆盖了刚果民主共和国这一语言多样性极高的地区。数据集不仅包含完整的姓名记录,还整合了性别、考试年份、区域来源等丰富元数据,并进一步衍生出姓名长度、词汇数量及结构分类等特征。通过去重处理与姓名成分分解,该语料库支持多层次的分析视角,为语言学、社会学及自然语言处理研究提供了多维度的数据支撑。
使用方法
研究者可通过克隆项目仓库并同步依赖环境,按照既定工作流顺序执行数据收集、提取与格式化脚本。数据集以CSV格式提供多种导出文件,包括完整姓名记录、统计摘要、特征增强版本及去重条目等。用户可根据研究需求选择相应文件,利用其中的结构化字段进行命名模式分析、性别与地域关联研究,或作为训练数据用于非洲语言相关的自然语言处理任务。
背景与挑战
背景概述
在非洲语言资源长期匮乏的背景下,刚果民主共和国作为非洲语言多样性最为丰富的国家之一,其人名数据一直缺乏系统性的整理与研究。CONGONAMES语料库的创建填补了这一空白,由研究人员Bernard Ng等人于近年基于公开的国家考试记录构建而成。该数据集收录了超过八百万条标准化的人名条目,并附有性别与地域来源等元数据,其核心研究问题聚焦于通过大规模人名数据分析刚果的文化身份与命名传统。这一资源的发布为非洲自然语言处理、专名学及社会科学研究提供了关键的数据基础,显著推动了相关领域对非洲语言文化资源的认知与利用。
当前挑战
该数据集致力于解决非洲人名识别与文化分析领域的资源短缺问题,其挑战在于如何从高度多样化的语言环境中准确提取并标准化人名信息,以支持性别分类、地域溯源等下游任务。在构建过程中,研究人员面临从非结构化的PDF文档中自动化解析文本的难题,需克服原始数据格式不一致、拼写变异以及元数据缺失等障碍。此外,确保数据清洗与归一化流程的可复现性,并在尊重文化敏感性的前提下处理大规模个人数据,亦是该数据集构建中的关键挑战。
常用场景
经典使用场景
在非洲语言资源匮乏的背景下,The CongoNames Corpus作为首个大规模刚果民主共和国人名数据集,其经典使用场景聚焦于跨学科的语言学与社会学研究。该数据集通过标准化处理并整合性别与地域来源元数据,为分析刚果这一语言多样性极高国家的命名惯例提供了坚实基础。研究者可借助该数据集深入探索人名结构、文化传承及社会变迁之间的复杂关联,从而揭示命名行为背后蕴含的深层社会文化意义。
解决学术问题
该数据集有效解决了非洲自然语言处理领域长期存在的资源短缺问题,为相关学术研究提供了关键数据支撑。在专名学研究中,它使得系统分析刚果人名分布模式、性别关联及地域特征成为可能,填补了该地区命名文化量化研究的空白。同时,数据集的结构化设计支持社会科学家探讨教育成果、性别差异与地域发展等议题,促进了跨学科实证研究的深入开展。
衍生相关工作
该数据集的发布催生了一系列围绕非洲语言技术与文化计算的经典研究工作。例如,基于其人名组件分解数据的研究,推动了多语言命名实体识别模型的优化;结合性别与地域元数据的分析,则启发了关于社会语言学变量与算法公平性的深入探讨。这些衍生工作不仅拓展了数据集的学术价值,也为构建更具代表性和公平性的全球语言技术生态做出了贡献。
以上内容由遇见数据集搜集并总结生成



