cyanic-selkie/wikianc-hr
收藏Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/wikianc-hr
下载链接
链接失效反馈官方服务:
资源简介:
WikiAnc HR数据集是从克罗地亚语维基百科和Wikidata(2023年3月1日)自动生成的数据集,主要用于Wikification任务。数据集中的每个数据点代表维基百科文章中的一个段落,包含段落文本、锚点信息、文章标题、文章页面ID、文章QID等字段。数据集分为训练集、验证集和测试集,且段落可能分布在不同的分割中。
WikiAnc HR数据集是从克罗地亚语维基百科和Wikidata(2023年3月1日)自动生成的数据集,主要用于Wikification任务。数据集中的每个数据点代表维基百科文章中的一个段落,包含段落文本、锚点信息、文章标题、文章页面ID、文章QID等字段。数据集分为训练集、验证集和测试集,且段落可能分布在不同的分割中。
提供机构:
cyanic-selkie
原始信息汇总
数据集概述
数据集描述
数据集总结
- 名称: WikiAnc HR
- 来源: 自动从Wikipedia (hr) 和 Wikidata 的2023年3月1日数据转储生成。
- 用途: 用于训练Wikification模型。
支持的任务
wikification: 用于训练模型以进行Wikification。
语言
- 语言: 克罗地亚语 (
hr)
数据集结构
数据实例
- 代表: 每个数据点代表Wikipedia文章中的一个段落。
- 字段:
uuid: 唯一标识符article_title: 文章标题article_pageid: 文章页面IDarticle_qid: Wikidata QIDsection_heading: 段落标题section_level: 段落级别paragraph_text: 段落文本paragraph_anchors: 包含多个锚点,每个锚点有start,end,qid,pageid,title字段。
数据字段
- 详细描述: 每个字段的详细定义和格式。
数据分割
- 分割: 训练、验证和测试集。
- 大小:
- 文章: 训练集192,653篇,验证集116,375篇,测试集116,638篇。
- 段落: 训练集2,346,651个,验证集292,590个,测试集293,557个。
- 锚点: 训练集8,368,928个,验证集1,039,851个,测试集1,044,828个。
- 带QID的锚点: 训练集7,160,367个,验证集891,959个,测试集896,414个。
- 带页面ID的锚点: 训练集7,179,116个,验证集894,313个,测试集898,692个。



