chcaa/dansk-ner
收藏DANSK数据集概述
数据集描述
数据集摘要
DANSK: Danish Annotations for NLP Specific Tasks 是一个多域文本数据集,源自丹麦GigaWord语料库(DAGW)。该数据集旨在填补丹麦NLP数据集在不同域中的空白,用于训练跨域泛化的模型。其命名实体标注具有细粒度,形式类似于OntoNotes v5,显著扩展了数据集的应用场景。
支持的任务
目前,DANSK数据集仅支持命名实体识别(Named-Entity Recognition),未来版本将包含更多任务的数据。
语言
数据集中的所有文本均为丹麦语,可能包含来自不同平台或方言的俚语,这与文本原始采样域一致。
数据集结构
数据实例
数据以JSON格式存储,示例结构如下:
json { "text": "Aborrer over 2 kg er en uhyre sjælden fangst.", "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}], "sents": [{"start": 0, "end": 45}], "tokens": [ {"id": 0, "start": 0, "end": 7}, {"id": 1, "start": 8, "end": 12}, {"id": 2, "start": 13, "end": 14}, {"id": 3, "start": 15, "end": 17}, {"id": 4, "start": 18, "end": 20}, {"id": 5, "start": 21, "end": 23}, {"id": 6, "start": 24, "end": 29}, {"id": 7, "start": 30, "end": 37}, {"id": 8, "start": 38, "end": 44}, {"id": 9, "start": 44, "end": 45}, ], "spans": {"incorrect_spans": []}, "dagw_source": "wiki", "dagw_domain": "Wiki & Books", "dagw_source_full": "Wikipedia", }
数据字段
text: 文本内容ents: 标注的实体sents: 文本的句子dagw_source: 文本在丹麦GigaWord语料库中的来源简写dagw_source_full: 文本在丹麦GigaWord语料库中的来源全名dagw_domain: 来源所属的域名
数据分割
数据随机分为三个部分:训练集、验证集和测试集。各部分来自同一数据池,无本质差异。
描述性统计
数据集组成
| 完整数据 | 训练集 | 验证集 | 测试集 | |
|---|---|---|---|---|
| 文本 | 15062 | 12062 | 1500 | 1500 |
| 实体 | 14462 | 11638 | 1327 | 1497 |
域分布
| 域 | 来源 | 完整数据 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|---|
| 对话 | Europa Parlamentet | 206 | 173 | 17 | 16 |
| 法律 | Retsinformation.dk | 965 | 747 | 105 | 113 |
| 新闻 | DanAvis | 283 | 236 | 20 | 27 |
| 社交媒体 | hestenettet.dk | 554 | 439 | 51 | 64 |
| 网络 | Common Crawl | 8270 | 6661 | 826 | 783 |
| 维基与书籍 | Wikipedia | 279 | 208 | 30 | 41 |
实体分布
| 实体类型 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| CARDINAL | 1702 | 168 | 226 |
| DATE | 1411 | 182 | 163 |
| EVENT | 175 | 19 | 17 |
| FACILITY | 200 | 25 | 21 |
| GPE | 1276 | 135 | 193 |
| LANGUAGE | 53 | 17 | 56 |
| LAW | 148 | 17 | 18 |
| LOCATION | 351 | 46 | 27 |
| MONEY | 566 | 72 | 76 |
| NORP | 405 | 41 | 49 |
| ORDINAL | 105 | 11 | 11 |
| ORGANIZATION | 1960 | 249 | 298 |
| PERCENT | 123 | 13 | 12 |
| PERSON | 1767 | 191 | 175 |
| PRODUCT | 634 | 57 | 72 |
| QUANTITY | 242 | 28 | 22 |
| TIME | 185 | 18 | 15 |
| WORK OF ART | 335 | 38 | 46 |
数据集创建
注释过程
DANSK数据集采用了OntoNotes 5.0的注释标准,包含18种不同的命名实体类型。
注释者
数据由10名来自奥胡斯大学的英语语言学硕士生注释,他们从2021年10月11日至11月22日,每周工作10小时。
注释者补偿
注释者按照丹麦教育部的标准学生工资率(140DKK/小时)获得补偿。
自动校正
使用正则表达式对发现的常见错误进行了自动校正。
许可证信息
数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。
引用信息
使用本数据集时,请引用以下预印本:
@misc{enevoldsen2024dansk, title={DANSK and DaCy 2.6.0: Domain Generalization of Danish Named Entity Recognition}, author={Kenneth Enevoldsen and Emil Trenckner Jessen and Rebekah Baglini}, year={2024}, eprint={2402.18209}, archivePrefix={arXiv}, primaryClass={cs.CL} }




