cyanic-selkie/aida-conll-yago-wikidata
收藏Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/aida-conll-yago-wikidata
下载链接
链接失效反馈官方服务:
资源简介:
AIDA CoNLL-YAGO Wikidata数据集与原始的AIDA CoNLL-YAGO数据集相同,但使用Wikidata的QID作为实体标识符,而不是Wikipedia的标题。这些标识符是从Wikidata和Wikipedia的转储文件中自动生成的(2023年3月1日),并经过了一些手动修正。该数据集主要用于命名实体识别(NER)和命名实体链接(NEL)任务,数据以英文为主。数据集的结构包括文档ID、文本内容、实体列表等字段,并且数据被分为训练集、验证集和测试集。
AIDA CoNLL-YAGO Wikidata数据集与原始的AIDA CoNLL-YAGO数据集相同,但使用Wikidata的QID作为实体标识符,而不是Wikipedia的标题。这些标识符是从Wikidata和Wikipedia的转储文件中自动生成的(2023年3月1日),并经过了一些手动修正。该数据集主要用于命名实体识别(NER)和命名实体链接(NEL)任务,数据以英文为主。数据集的结构包括文档ID、文本内容、实体列表等字段,并且数据被分为训练集、验证集和测试集。
提供机构:
cyanic-selkie
原始信息汇总
数据集概述
数据集描述
数据集总结
AIDA CoNLL-YAGO Wikidata数据集是原始AIDA CoNLL-YAGO数据集的变体,使用Wikidata QIDs作为实体标识符,而非Wikipedia标题。该数据集通过自动生成(含少量手动校正)自Wikidata和Wikipedia的转储数据(2023年3月1日)创建。
支持的任务
named-entity-recognition: 用于训练命名实体识别模型。named-entity-linking: 用于训练命名实体链接模型。
语言
数据集中的文本为英语,对应的BCP-47代码为en。
数据集结构
数据实例
每个数据点代表一个文档(新闻文章)。
text字段包含原始文本,为NFC规范化、UTF-8编码的字符串。entities字段包含一系列实体,每个实体由包含起始字节start、结束字节end、可为空的qid和pageid字段组成的结构体表示。- 每个文档具有唯一的
document_id字段。
数据字段
document_id: 唯一标识文档的整数。sentence_index: 唯一标识句子在原始文档中位置的整数。text: 表示句子的NFC规范化、UTF-8编码字符串。entities: 表示实体的结构体列表,每个实体包含:start: 实体起始UTF-8码点的整数。end: 实体结束UTF-8码点的整数。tag: 实体类型(PER、LOC、ORG或MISC)的字符串。qid: 指向Wikidata QID的整数,可为空。pageid: 指向Wikipedia页面ID的整数,可为空。title: 指向Wikipedia标题的NFC规范化、UTF-8编码字符串,可为空。
数据分割
数据分为训练、验证和测试集,同一文章的所有句子属于同一分割。分割大小如下:
| 训练 | 验证 | 测试 | |
|---|---|---|---|
| 文档 | 946 | 216 | 231 |
| 实体 | 23,374 | 5,912 | 5,608 |
| 带QID的实体 | 18,540 | 4,791 | 4,481 |
附加信息
许可信息
数据集的许可状态与原始AIDA CoNLL-YAGO数据集相同,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License。



