five

gcaillaut/frwiki_good_pages_el

收藏
Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gcaillaut/frwiki_good_pages_el
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自法文维基百科的特色和优质文章的HTML文件,旨在用于训练实体链接(EL)系统,通过文章中的链接来检测命名实体。数据集的结构包括文章的标题、对应的Wikidata实体QID、文章文本的分词结果、每个实体的维基百科和Wikidata描述、NER标签以及每个实体的维基百科标题和QID。每个实体的信息仅在其第一个词的位置上出现,而labels字段使用IOB编码来标记实体的边界。
提供机构:
gcaillaut
原始信息汇总

数据集概述

数据集描述

  • 名称: frwiki_good_pages_el
  • 来源: 原始数据,包含从法国维基百科下载的特色和优秀文章的HTML文件。
  • 目的: 用于训练实体链接(EL)系统,通过文章中的链接来检测命名实体。

语言

  • 主要语言: 法语

数据集结构

数据集的结构如下:

json { "title": "页面标题", "qid": "对应的Wikidata实体的QID", "words": ["分词"], "wikipedia": ["每个实体的维基百科描述"], "wikidata": ["每个实体的Wikidata描述"], "labels": ["NER标签"], "titles": ["每个实体的维基百科标题"], "qids": ["每个实体的QID"] }

  • words: 包含文章的文本,按空格分割。
  • 其他字段: 与words长度相同,仅当words中的相应标记是实体的开始时,才包含数据。例如,如果words中的第_i_个标记是一个实体,则wikipedia中的第_i_个元素包含该实体的维基百科描述。
  • labels: 用于界定实体,使用IOB编码。如果标记不是实体的一部分,标签为"O";如果是多词实体的第一个词,标签为"B";否则标签为"I"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作