gcaillaut/frwiki_good_pages_el

Name: gcaillaut/frwiki_good_pages_el
Creator: gcaillaut
Published: 2024-01-25 08:38:34
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gcaillaut/frwiki_good_pages_el

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自法文维基百科的特色和优质文章的HTML文件，旨在用于训练实体链接（EL）系统，通过文章中的链接来检测命名实体。数据集的结构包括文章的标题、对应的Wikidata实体QID、文章文本的分词结果、每个实体的维基百科和Wikidata描述、NER标签以及每个实体的维基百科标题和QID。每个实体的信息仅在其第一个词的位置上出现，而labels字段使用IOB编码来标记实体的边界。

提供机构：

gcaillaut

原始信息汇总

数据集概述

数据集描述

名称: frwiki_good_pages_el
来源: 原始数据，包含从法国维基百科下载的特色和优秀文章的HTML文件。
目的: 用于训练实体链接（EL）系统，通过文章中的链接来检测命名实体。

语言

主要语言: 法语

数据集结构

数据集的结构如下：

json { "title": "页面标题", "qid": "对应的Wikidata实体的QID", "words": ["分词"], "wikipedia": ["每个实体的维基百科描述"], "wikidata": ["每个实体的Wikidata描述"], "labels": ["NER标签"], "titles": ["每个实体的维基百科标题"], "qids": ["每个实体的QID"] }

words: 包含文章的文本，按空格分割。
其他字段: 与words长度相同，仅当words中的相应标记是实体的开始时，才包含数据。例如，如果words中的第_i_个标记是一个实体，则wikipedia中的第_i_个元素包含该实体的维基百科描述。
labels: 用于界定实体，使用IOB编码。如果标记不是实体的一部分，标签为"O"；如果是多词实体的第一个词，标签为"B"；否则标签为"I"。

5,000+

优质数据集

54 个

任务类型

进入经典数据集