gcaillaut/frwiki_good_pages_el
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gcaillaut/frwiki_good_pages_el
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自法文维基百科的特色和优质文章的HTML文件,旨在用于训练实体链接(EL)系统,通过文章中的链接来检测命名实体。数据集的结构包括文章的标题、对应的Wikidata实体QID、文章文本的分词结果、每个实体的维基百科和Wikidata描述、NER标签以及每个实体的维基百科标题和QID。每个实体的信息仅在其第一个词的位置上出现,而labels字段使用IOB编码来标记实体的边界。
提供机构:
gcaillaut
原始信息汇总
数据集概述
数据集描述
- 名称: frwiki_good_pages_el
- 来源: 原始数据,包含从法国维基百科下载的特色和优秀文章的HTML文件。
- 目的: 用于训练实体链接(EL)系统,通过文章中的链接来检测命名实体。
语言
- 主要语言: 法语
数据集结构
数据集的结构如下:
json { "title": "页面标题", "qid": "对应的Wikidata实体的QID", "words": ["分词"], "wikipedia": ["每个实体的维基百科描述"], "wikidata": ["每个实体的Wikidata描述"], "labels": ["NER标签"], "titles": ["每个实体的维基百科标题"], "qids": ["每个实体的QID"] }
- words: 包含文章的文本,按空格分割。
- 其他字段: 与
words长度相同,仅当words中的相应标记是实体的开始时,才包含数据。例如,如果words中的第_i_个标记是一个实体,则wikipedia中的第_i_个元素包含该实体的维基百科描述。 - labels: 用于界定实体,使用IOB编码。如果标记不是实体的一部分,标签为
"O";如果是多词实体的第一个词,标签为"B";否则标签为"I"。



