five

cyanic-selkie/aida-conll-yago-wikidata

收藏
Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/aida-conll-yago-wikidata
下载链接
链接失效反馈
官方服务:
资源简介:
AIDA CoNLL-YAGO Wikidata数据集与原始的AIDA CoNLL-YAGO数据集相同,但使用Wikidata的QID作为实体标识符,而不是Wikipedia的标题。这些标识符是从Wikidata和Wikipedia的转储文件中自动生成的(2023年3月1日),并经过了一些手动修正。该数据集主要用于命名实体识别(NER)和命名实体链接(NEL)任务,数据以英文为主。数据集的结构包括文档ID、文本内容、实体列表等字段,并且数据被分为训练集、验证集和测试集。

AIDA CoNLL-YAGO Wikidata数据集与原始的AIDA CoNLL-YAGO数据集相同,但使用Wikidata的QID作为实体标识符,而不是Wikipedia的标题。这些标识符是从Wikidata和Wikipedia的转储文件中自动生成的(2023年3月1日),并经过了一些手动修正。该数据集主要用于命名实体识别(NER)和命名实体链接(NEL)任务,数据以英文为主。数据集的结构包括文档ID、文本内容、实体列表等字段,并且数据被分为训练集、验证集和测试集。
提供机构:
cyanic-selkie
原始信息汇总

数据集概述

数据集描述

数据集总结

AIDA CoNLL-YAGO Wikidata数据集是原始AIDA CoNLL-YAGO数据集的变体,使用Wikidata QIDs作为实体标识符,而非Wikipedia标题。该数据集通过自动生成(含少量手动校正)自Wikidata和Wikipedia的转储数据(2023年3月1日)创建。

支持的任务

  • named-entity-recognition: 用于训练命名实体识别模型。
  • named-entity-linking: 用于训练命名实体链接模型。

语言

数据集中的文本为英语,对应的BCP-47代码为en

数据集结构

数据实例

每个数据点代表一个文档(新闻文章)。

  • text 字段包含原始文本,为NFC规范化、UTF-8编码的字符串。
  • entities 字段包含一系列实体,每个实体由包含起始字节start、结束字节end、可为空的qidpageid字段组成的结构体表示。
  • 每个文档具有唯一的document_id字段。

数据字段

  • document_id: 唯一标识文档的整数。
  • sentence_index: 唯一标识句子在原始文档中位置的整数。
  • text: 表示句子的NFC规范化、UTF-8编码字符串。
  • entities: 表示实体的结构体列表,每个实体包含:
    • start: 实体起始UTF-8码点的整数。
    • end: 实体结束UTF-8码点的整数。
    • tag: 实体类型(PER、LOC、ORG或MISC)的字符串。
    • qid: 指向Wikidata QID的整数,可为空。
    • pageid: 指向Wikipedia页面ID的整数,可为空。
    • title: 指向Wikipedia标题的NFC规范化、UTF-8编码字符串,可为空。

数据分割

数据分为训练、验证和测试集,同一文章的所有句子属于同一分割。分割大小如下:

训练 验证 测试
文档 946 216 231
实体 23,374 5,912 5,608
带QID的实体 18,540 4,791 4,481

附加信息

许可信息

数据集的许可状态与原始AIDA CoNLL-YAGO数据集相同,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作