five

chcaa/dansk-ner

收藏
Hugging Face2024-07-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/chcaa/dansk-ner
下载链接
链接失效反馈
官方服务:
资源简介:
DANSK数据集是一个丹麦语的自然语言处理(NLP)数据集,主要用于命名实体识别(NER)任务。它包含了来自多个领域的文本,这些文本来自丹麦GigaWord语料库(DAGW)。数据集的设计目的是填补丹麦语NLP数据集的空白,特别是那些需要跨领域泛化的模型训练。数据集中的命名实体注释是细粒度的,类似于OntoNotes v5的格式,这大大扩展了数据集的使用场景。数据集涵盖了Web、新闻、维基与书籍、法律、Dannet、对话和社交媒体等多个领域。数据集的结构包括文本、实体、句子、标记、来源和领域等信息,并且数据被随机分为训练集、开发集和测试集。

DANSK数据集是一个丹麦语的自然语言处理(NLP)数据集,主要用于命名实体识别(NER)任务。它包含了来自多个领域的文本,这些文本来自丹麦GigaWord语料库(DAGW)。数据集的设计目的是填补丹麦语NLP数据集的空白,特别是那些需要跨领域泛化的模型训练。数据集中的命名实体注释是细粒度的,类似于OntoNotes v5的格式,这大大扩展了数据集的使用场景。数据集涵盖了Web、新闻、维基与书籍、法律、Dannet、对话和社交媒体等多个领域。数据集的结构包括文本、实体、句子、标记、来源和领域等信息,并且数据被随机分为训练集、开发集和测试集。
提供机构:
chcaa
原始信息汇总

DANSK数据集概述

数据集描述

数据集摘要

DANSK: Danish Annotations for NLP Specific Tasks 是一个多域文本数据集,源自丹麦GigaWord语料库(DAGW)。该数据集旨在填补丹麦NLP数据集在不同域中的空白,用于训练跨域泛化的模型。其命名实体标注具有细粒度,形式类似于OntoNotes v5,显著扩展了数据集的应用场景。

支持的任务

目前,DANSK数据集仅支持命名实体识别(Named-Entity Recognition),未来版本将包含更多任务的数据。

语言

数据集中的所有文本均为丹麦语,可能包含来自不同平台或方言的俚语,这与文本原始采样域一致。

数据集结构

数据实例

数据以JSON格式存储,示例结构如下:

json { "text": "Aborrer over 2 kg er en uhyre sjælden fangst.", "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}], "sents": [{"start": 0, "end": 45}], "tokens": [ {"id": 0, "start": 0, "end": 7}, {"id": 1, "start": 8, "end": 12}, {"id": 2, "start": 13, "end": 14}, {"id": 3, "start": 15, "end": 17}, {"id": 4, "start": 18, "end": 20}, {"id": 5, "start": 21, "end": 23}, {"id": 6, "start": 24, "end": 29}, {"id": 7, "start": 30, "end": 37}, {"id": 8, "start": 38, "end": 44}, {"id": 9, "start": 44, "end": 45}, ], "spans": {"incorrect_spans": []}, "dagw_source": "wiki", "dagw_domain": "Wiki & Books", "dagw_source_full": "Wikipedia", }

数据字段

  • text: 文本内容
  • ents: 标注的实体
  • sents: 文本的句子
  • dagw_source: 文本在丹麦GigaWord语料库中的来源简写
  • dagw_source_full: 文本在丹麦GigaWord语料库中的来源全名
  • dagw_domain: 来源所属的域名

数据分割

数据随机分为三个部分:训练集、验证集和测试集。各部分来自同一数据池,无本质差异。

描述性统计

数据集组成

完整数据 训练集 验证集 测试集
文本 15062 12062 1500 1500
实体 14462 11638 1327 1497

域分布

来源 完整数据 训练集 验证集 测试集
对话 Europa Parlamentet 206 173 17 16
法律 Retsinformation.dk 965 747 105 113
新闻 DanAvis 283 236 20 27
社交媒体 hestenettet.dk 554 439 51 64
网络 Common Crawl 8270 6661 826 783
维基与书籍 Wikipedia 279 208 30 41

实体分布

实体类型 训练集 验证集 测试集
CARDINAL 1702 168 226
DATE 1411 182 163
EVENT 175 19 17
FACILITY 200 25 21
GPE 1276 135 193
LANGUAGE 53 17 56
LAW 148 17 18
LOCATION 351 46 27
MONEY 566 72 76
NORP 405 41 49
ORDINAL 105 11 11
ORGANIZATION 1960 249 298
PERCENT 123 13 12
PERSON 1767 191 175
PRODUCT 634 57 72
QUANTITY 242 28 22
TIME 185 18 15
WORK OF ART 335 38 46

数据集创建

注释过程

DANSK数据集采用了OntoNotes 5.0的注释标准,包含18种不同的命名实体类型。

注释者

数据由10名来自奥胡斯大学的英语语言学硕士生注释,他们从2021年10月11日至11月22日,每周工作10小时。

注释者补偿

注释者按照丹麦教育部的标准学生工资率(140DKK/小时)获得补偿。

自动校正

使用正则表达式对发现的常见错误进行了自动校正。

许可证信息

数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。

引用信息

使用本数据集时,请引用以下预印本:

@misc{enevoldsen2024dansk, title={DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity Recognition}, author={Kenneth Enevoldsen and Emil Trenckner Jessen and Rebekah Baglini}, year={2024}, eprint={2402.18209}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
在丹麦语自然语言处理领域,DANSK数据集的构建旨在填补跨领域文本资源的空白。该数据集从丹麦GigaWord语料库中精心选取了涵盖网络、新闻、维基与书籍、法律、Dannet、对话及社交媒体等多个领域的文本样本。构建过程中,采用了与OntoNotes v5相似的细粒度命名实体标注标准,由奥胡斯大学的语言学硕士生团队进行人工标注,并辅以自动化正则表达式规则进行后期校正,确保了标注的一致性与准确性。
特点
DANSK数据集以其广泛的领域覆盖和精细的实体标注而著称。文本来源多样,包括法律条文、新闻报道、社交媒体内容及百科全书等,充分反映了丹麦语的实际使用场景。标注体系包含18种实体类型,如人物、组织、地点、时间、法律条文等,支持细粒度的命名实体识别任务。数据集还提供了详细的领域和实体分布统计,便于研究者分析跨领域的模型泛化能力。
使用方法
该数据集以JSON格式提供,每个实例包含原始文本、实体标注、句子边界及来源域信息。用户可直接加载训练集、开发集和测试集进行模型训练与评估。适用于丹麦语命名实体识别任务的基准测试,尤其适合研究跨领域泛化性能。通过HuggingFace平台可便捷访问,支持标准NLP工具链集成,为丹麦语信息提取研究提供了可靠的数据基础。
背景与挑战
背景概述
在自然语言处理领域,丹麦语资源相对稀缺,尤其在跨领域命名实体识别任务中缺乏高质量标注数据集。DANSK数据集由奥胡斯大学的研究团队于2021年启动构建,旨在填补这一空白。该数据集从丹麦千兆词库中抽取多领域文本,采用与OntoNotes v5相仿的细粒度标注体系,涵盖法律、新闻、社交媒体等七个领域。其核心研究目标在于提升丹麦语NLP模型的领域泛化能力,为跨领域实体识别研究提供标准化评估基准,对低资源语言处理技术的发展具有重要推动作用。
当前挑战
该数据集致力于解决丹麦语命名实体识别中的领域泛化难题,其挑战体现在实体标注的细粒度要求与多领域语言变异性的交织。具体而言,法律文本中的专业术语与社交媒体中的非正式表达形成鲜明对比,导致模型难以建立统一的语义表示。在构建过程中,标注工作面临跨领域文本的异质性挑战,例如口语转录文本的语法松散性与文学作品的修辞复杂性,均对标注一致性构成压力。此外,版权合规性要求迫使团队在2024年移除OpenSubtitles子集,这反映出多源数据整合时面临的法律与伦理约束。
常用场景
经典使用场景
在丹麦自然语言处理领域,DANSK数据集作为首个涵盖多领域文本的细粒度命名实体识别资源,其经典应用场景在于训练跨领域泛化能力强的丹麦语实体识别模型。该数据集从法律、新闻、社交媒体、百科全书及口语对话等七个领域采样,并采用与OntoNotes v5相似的细粒度标注体系,使得研究者能够构建出在多样化语境中均能稳定识别18类命名实体的深度学习模型,有效解决了丹麦语NLP任务中因领域单一导致的模型偏差问题。
实际应用
在实际应用层面,DANSK数据集为丹麦语信息抽取系统提供了核心训练资源。基于该数据集训练的模型可广泛应用于智能法律文档分析、新闻内容结构化、社交媒体舆情监控及跨语言知识图谱构建等领域。例如在法律科技中,系统能自动识别判决文书中的法律条款、机构名称与时间实体;在媒体行业,可实现对新闻文本中人物、地点与组织的实时提取。这些应用显著提升了丹麦语区自动化文本处理的精度与效率。
衍生相关工作
围绕DANSK数据集已衍生出多项重要研究工作,其中最突出的是与其同步发布的DaCy 2.6.0自然语言处理框架。该框架集成了基于DANSK训练的预训练NER模型,实现了开箱即用的丹麦语实体识别功能。此外,学术界利用该数据集开展了跨领域迁移学习、标注一致性分析及低资源语言模型增强等研究,相关成果已在北欧语言技术会议及计算语言学刊物发表,进一步推动了丹麦语NLP工具链的生态化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作