innbyggjarnamn
收藏Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/NbAiLab/innbyggjarnamn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含挪威不同地区的居民名称(demonyms)。它基于Språkrådet网站上的Innbyggjarnamn表格。数据集有两种配置:'default'和'original'。'default'配置将一个地方的所有居民名称完整地列在一起,而'original'配置保留了原始表格结构,某些地方有多行数据,并包含一个'Merknad'列描述差异。数据集使用NLOD 2.0许可证,可以通过HuggingFace datasets库加载。
提供机构:
Nasjonalbiblioteket AI Lab
创建时间:
2026-01-20
原始信息汇总
Innbyggjarnamn (Demonyms) 数据集概述
数据集基本信息
- 数据集名称: Innbyggjarnamn (Demonyms)
- 发布者: NbAiLab
- 来源: 基于挪威语言委员会(Språkrådet)网站上的“Innbyggjarnamn”表格。
- 源地址: https://web.archive.org/web/20250812145750/https://sprakradet.no/stedsnavn-og-navn-pa-statsorgan/navnelister-norsk-skrivemate/innbyggjarnamn/
- 许可证: NLOD 2.0 (https://data.norge.no/nlod/en/2.0)
- 内容描述: 该数据集包含挪威不同地区的地名居民称谓(Demonyms)。
数据集配置与结构
数据集提供两种配置(configs):default 和 original。
1. default 配置
- 描述: 处理后的版本,将一个地点的所有居民称谓合并列出。
- 特征(Features):
Kommune/område: 市/区(字符串类型)Fylke/område: 郡/区(字符串类型)Innbyggjarnamn: 居民称谓(字符串列表类型)
- 数据分割(Splits):
validation分割: 372 个样本,17,273 字节test分割: 372 个样本,17,273 字节
- 数据量:
- 下载大小: 20,604 字节
- 数据集大小: 34,546 字节
2. original 配置
- 描述: 原始表格数据,部分地点有多行记录。
- 特征(Features):
Innbyggjarnamn: 居民称谓(字符串类型)Kommune/område: 市/区(字符串类型)Fylke/område: 郡/区(字符串类型)Merknad: 备注(字符串类型)
- 数据分割(Splits):
test分割: 821 个样本,36,050 字节
- 数据量:
- 下载大小: 17,206 字节
- 数据集大小: 36,050 字节
数据预处理说明
- 源表格中一行内包含的多个称谓(如 "bergensar/-er")或变体(如 "bam(b)ling")在此数据集的
default配置中被展开为完整的列表形式(例如 ["bergensar", "bergenser"] 或 ["bamling", "bambling"])。 - 源表格中一个地点的多行记录(通过“Merknad”备注区分)在
default配置中被合并。
数据加载方式
- 加载
default配置的验证集:load_dataset("NbAiLab/innbyggjarnamn", split="validation") - 加载
default配置的测试集:load_dataset("NbAiLab/innbyggjarnamn", split="test") - 加载
original配置的原始数据:load_dataset("NbAiLab/innbyggjarnamn", name="original", split="test")
搜集汇总
数据集介绍

构建方式
Innbyggjarnamn数据集源自挪威语言委员会(Språkrådet)官方网站的居民名称表格,该表格记录了挪威各地居民称谓的多种变体形式。构建过程中,原始表格中的复合条目如“bergensar/-er”被拆分为完整的独立形式,例如["bergensar", "bergenser"],确保每个称谓都以清晰、标准化的列表呈现。数据经过系统整理,将同一地点的多个称谓条目合并,同时保留了原始表格中的备注信息,形成了结构化的验证集和测试集,为语言学研究提供了规范化的数据基础。
使用方法
使用该数据集时,可通过Hugging Face的datasets库直接加载,支持两种配置选择。默认配置适用于大多数应用场景,加载后可直接获取市镇、郡县及居民称谓列表的对应关系,便于进行称谓变体的统计分析或模型训练。原始配置则更适合需要考察历史备注或原始表格结构的研究,例如探究称谓使用的语境差异。数据已划分为验证集和测试集,支持即插即用的评估流程,为自然语言处理任务如实体识别或地理语言学分析提供了便捷接口。
背景与挑战
背景概述
Innbyggjarnamn数据集聚焦于挪威地理名称学中的居民称谓词(demonym)收集与整理,由挪威语言理事会(Språkrådet)官方发布,并由NbAiLab机构在HuggingFace平台共享。该数据集旨在系统化记录挪威各市镇及郡县对应的居民名称变体,例如“bergensar”与“bergenser”皆指代卑尔根居民,为语言学、地名学及自然语言处理领域提供了标准化资源。其构建基于权威机构公开的表格数据,通过结构化处理将原始信息中的复合表述拆解为完整词条列表,从而支持跨学科研究中对挪威文化身份与语言变体的深入分析。
当前挑战
该数据集致力于解决居民称谓词在自然语言理解与生成任务中的标准化挑战,尤其在处理挪威语地名衍生词汇的多样变体时,模型需准确识别同一地理实体的不同称谓形式。在构建过程中,原始数据呈现了复杂的语言现象,如“bergensar/-er”类的缩写合并条目以及“bam(b)ling”中的括号变体,要求数据清洗算法能智能展开所有可能拼写。同时,部分地点对应多行数据且附有注释说明差异,增加了数据整合与一致性维护的难度,需精细设计处理流程以保留语义细微差别并确保输出结构的统一性。
常用场景
经典使用场景
在语言学和自然语言处理领域,地名衍生词(demonyms)的研究对于理解地域文化标识和语言变体至关重要。Innbyggjarnamn数据集收录了挪威各地居民名称的规范形式及其变体,为研究人员提供了系统化的语料资源。该数据集最经典的使用场景是作为基准测试集,用于评估命名实体识别模型在处理挪威语地名衍生词时的性能,特别是在处理复杂形态变化和方言变体方面的准确性。
解决学术问题
该数据集有效解决了语言资源稀缺性带来的学术挑战,为低资源语言处理提供了高质量标注数据。在学术研究中,它支持对挪威语形态学、地名学及社会语言学的深入探索,帮助学者分析地名衍生词的形成规律及其与地理、文化因素的关联。通过提供标准化的居民名称列表,该数据集促进了跨区域语言比较研究,并为多语言自然语言处理模型的训练提供了关键支撑。
实际应用
在实际应用层面,Innbyggjarnamn数据集被广泛应用于地理信息系统、本地化服务和文化遗产数字化项目。政府机构和教育机构利用该数据集规范官方文件中的居民名称拼写,确保地名使用的准确性和一致性。媒体和出版行业也可借助该数据集进行内容校对,避免在报道或文献中出现地域名称的错误表述,从而提升信息的专业性和可信度。
数据集最近研究
最新研究方向
在自然语言处理领域,地名学与语言资源构建正日益受到重视,特别是针对低资源语言如挪威语的研究。Innbyggjarnamn数据集作为挪威语居民称谓词的标准化集合,为语言模型在命名实体识别、地理信息抽取及文化语境理解方面提供了关键支持。当前前沿研究聚焦于利用此类数据集增强多语言模型的细粒度语义表示能力,尤其是在处理方言变体和历史语言形式时,模型能够更准确地捕捉地域文化差异。随着欧洲语言资源基础设施的不断完善,该数据集在推动挪威语数字人文项目、促进语言技术本土化应用方面展现出深远影响,为跨语言信息检索和机器翻译系统提供了宝贵的训练与评估资源。
以上内容由遇见数据集搜集并总结生成



