five

gcaillaut/enwiki_el|自然语言处理数据集|实体链接数据集

收藏
hugging_face2022-07-04 更新2024-03-04 收录
自然语言处理
实体链接
下载链接:
https://hf-mirror.com/datasets/gcaillaut/enwiki_el
下载链接
链接失效反馈
资源简介:
该数据集旨在用于训练实体链接(EL)系统,利用维基百科文章中的链接来检测命名实体。数据集的结构包括文章的标题、对应的Wikidata实体QID、文章文本的分词、每个实体的维基百科描述、NER标签、每个实体的维基百科标题和每个实体的QID。
提供机构:
gcaillaut
原始信息汇总

数据集概述

基本信息

  • 名称: test
  • 语言: 英语 (en-EN)
  • 许可证: WTFPL
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别: 其他
  • 大小: 未知

数据集描述

  • 目的: 用于训练实体链接(Entity Linking, EL)系统。
  • 内容: 使用维基百科文章中的链接来检测命名实体。

数据集结构

数据集包含以下字段:

  • title: 页面标题
  • qid: 对应Wikidata实体的QID
  • words: 文章文本,按空格分割的词条
  • wikipedia: 每个实体的维基百科描述
  • labels: 实体的NER标签,使用IOB编码
  • titles: 每个实体的维基百科标题
  • qids: 每个实体的QID

每个字段中的数据仅在words字段中的相应词条是实体的起始时存在。如果实体跨越多词,则只有起始词的索引包含数据。labels字段用于界定实体,非实体词条标记为"O",实体起始词标记为"B",其他词标记为"I"

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集