GEODE/GeoEDdA
收藏Hugging Face2024-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEODE/GeoEDdA
下载链接
链接失效反馈官方服务:
资源简介:
GeoEDdA数据集是一个用于地理语义标注的黄金标准数据集,特别针对Diderot和d’Alembert的《百科全书》中的法语条目。该数据集包含了命名实体(如空间、人物和其他类别)、名词实体、嵌套命名实体、空间关系等语义标注。数据集以JSONL文件格式提供,每个条目包含文本、元数据、标记和标注信息。数据集还提供了训练、验证和测试集的划分,并详细列出了各个知识领域的段落数量。
The GeoEDdA dataset is a gold standard dataset for geo-semantic annotation of Diderot & dAlemberts Encyclopédie. This dataset contains semantic annotations (at the token and span levels) for named entities (such as Spatial, Person, and MISC), nominal entities, as well as nested named entities, spatial relations, and other relevant information within French encyclopedic entries. The dataset was created by Ludovic Moncla, Katherine McDonough, and Denis Vigier in the framework of the GEODE project, with data sourced from the ARTFL Encyclopédie Project, University of Chicago. The dataset is provided in JSONL file format, containing fields such as text, meta, tokens, and spans. It consists of 2200 randomly selected paragraphs distributed across various knowledge domains such as Geography, History, Law, and more.
提供机构:
GEODE
原始信息汇总
数据集概述
数据集描述
- 名称: GeoEDdA
- 作者: Ludovic Moncla, Katherine McDonough, Denis Vigier
- 数据来源: ARTFL Encyclopédie Project, University of Chicago
- 语言: 法语
- 许可证: cc-by-nc-4.0
- GitHub仓库: https://github.com/GEODE-project/ner-spancat-edda
- Zenodo仓库: https://zenodo.org/records/10530177
数据集摘要
该数据集包含对法语百科全书条目的语义注释,包括命名实体(如空间、人物和其他)、名词实体、嵌套命名实体、空间关系和其他相关信息。
标签集
- NC-Spatial: 标识空间实体的普通名词
- NP-Spatial: 标识地点名称的专有名词
- ENE-Spatial: 嵌套空间实体
- Relation: 空间关系
- Latlong: 地理坐标
- NC-Person: 标识人物的普通名词
- NP-Person: 标识人物名称的专有名词
- ENE-Person: 嵌套人物实体
- NP-Misc: 标识非空间或人物实体的专有名词
- ENE-Misc: 嵌套命名实体,非空间或人物
- Head: 条目标题
- Domain-Mark: 指示知识领域的词汇
支持的任务
token-classification或span-classification- 特别适用于空间角色标注
数据集结构
数据集以JSONL文件格式提供,每行包含以下结构:
json { "text": "ILLESCAS, (Géog.) petite ville dEspagne <...> ", "meta": {"volume": 8, "head": "ILLESCAS", "author": "unsigned", "domain_article": "Géographie", "domain_paragraph": "Géographie", "article": 2637, "paragraph": 1}, "tokens": [{"text": "ILLESCAS", "start": 0, "end": 8, "id": 0, "ws": false}, <...>], "spans": [{"text": "ILLESCAS", "start": 0, "end": 8, "token_start": 0, "token_end": 0, "label": "Head"}, <...>] }
主要字段
text: 段落的纯文本meta: 段落的元数据tokens: 标记列表,包含文本、ID、起始和结束位置spans: 注释列表,包含文本、标签、起始和结束位置
数据分割
数据集包含2200个随机选择的段落,分布如下:
| 知识领域 | 段落数量 |
|---|---|
| Géographie | 1096 |
| Histoire | 259 |
| Droit Jurisprudence | 113 |
| Physique | 92 |
| Métiers | 92 |
| Médecine | 88 |
| Philosophie | 69 |
| Histoire naturelle | 65 |
| Belles-lettres | 65 |
| Militaire | 62 |
| Commerce | 48 |
| Beaux-arts | 44 |
| Agriculture | 36 |
| Chasse | 31 |
| Religion | 23 |
| Musique | 17 |
训练/验证/测试集
| 训练 | 验证 | 测试 | |
|---|---|---|---|
| 段落 | 1,800 | 200 | 200 |
| 标记 | 132,398 | 14,959 | 13,881 |
| NC-Spatial | 3,252 | 358 | 355 |
| NP-Spatial | 4,707 | 464 | 519 |
| ENE-Spatial | 3,043 | 326 | 334 |
| Relation | 2,093 | 219 | 226 |
| Latlong | 553 | 66 | 72 |
| NC-Person | 1,378 | 132 | 133 |
| NP-Person | 1,599 | 170 | 150 |
| ENE-Person | 492 | 49 | 57 |
| NP-Misc | 948 | 108 | 96 |
| ENE-Misc | 255 | 31 | 22 |
| Head | 1,261 | 142 | 153 |
| Domain-Mark | 1,069 | 122 | 133 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



