gcaillaut/enwiki_el|自然语言处理数据集|实体链接数据集
收藏hugging_face2022-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gcaillaut/enwiki_el
下载链接
链接失效反馈资源简介:
该数据集旨在用于训练实体链接(EL)系统,利用维基百科文章中的链接来检测命名实体。数据集的结构包括文章的标题、对应的Wikidata实体QID、文章文本的分词、每个实体的维基百科描述、NER标签、每个实体的维基百科标题和每个实体的QID。
提供机构:
gcaillaut
原始信息汇总
数据集概述
基本信息
- 名称: test
- 语言: 英语 (en-EN)
- 许可证: WTFPL
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 其他
- 大小: 未知
数据集描述
- 目的: 用于训练实体链接(Entity Linking, EL)系统。
- 内容: 使用维基百科文章中的链接来检测命名实体。
数据集结构
数据集包含以下字段:
title: 页面标题qid: 对应Wikidata实体的QIDwords: 文章文本,按空格分割的词条wikipedia: 每个实体的维基百科描述labels: 实体的NER标签,使用IOB编码titles: 每个实体的维基百科标题qids: 每个实体的QID
每个字段中的数据仅在words字段中的相应词条是实体的起始时存在。如果实体跨越多词,则只有起始词的索引包含数据。labels字段用于界定实体,非实体词条标记为"O",实体起始词标记为"B",其他词标记为"I"。
