five

cyanic-selkie/wikianc-hr

收藏
Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/wikianc-hr
下载链接
链接失效反馈
官方服务:
资源简介:
WikiAnc HR数据集是从克罗地亚语维基百科和Wikidata(2023年3月1日)自动生成的数据集,主要用于Wikification任务。数据集中的每个数据点代表维基百科文章中的一个段落,包含段落文本、锚点信息、文章标题、文章页面ID、文章QID等字段。数据集分为训练集、验证集和测试集,且段落可能分布在不同的分割中。

WikiAnc HR数据集是从克罗地亚语维基百科和Wikidata(2023年3月1日)自动生成的数据集,主要用于Wikification任务。数据集中的每个数据点代表维基百科文章中的一个段落,包含段落文本、锚点信息、文章标题、文章页面ID、文章QID等字段。数据集分为训练集、验证集和测试集,且段落可能分布在不同的分割中。
提供机构:
cyanic-selkie
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: WikiAnc HR
  • 来源: 自动从Wikipedia (hr) 和 Wikidata 的2023年3月1日数据转储生成。
  • 用途: 用于训练Wikification模型。

支持的任务

  • wikification: 用于训练模型以进行Wikification。

语言

  • 语言: 克罗地亚语 (hr)

数据集结构

数据实例

  • 代表: 每个数据点代表Wikipedia文章中的一个段落。
  • 字段:
    • uuid: 唯一标识符
    • article_title: 文章标题
    • article_pageid: 文章页面ID
    • article_qid: Wikidata QID
    • section_heading: 段落标题
    • section_level: 段落级别
    • paragraph_text: 段落文本
    • paragraph_anchors: 包含多个锚点,每个锚点有start, end, qid, pageid, title字段。

数据字段

  • 详细描述: 每个字段的详细定义和格式。

数据分割

  • 分割: 训练、验证和测试集。
  • 大小:
    • 文章: 训练集192,653篇,验证集116,375篇,测试集116,638篇。
    • 段落: 训练集2,346,651个,验证集292,590个,测试集293,557个。
    • 锚点: 训练集8,368,928个,验证集1,039,851个,测试集1,044,828个。
    • 带QID的锚点: 训练集7,160,367个,验证集891,959个,测试集896,414个。
    • 带页面ID的锚点: 训练集7,179,116个,验证集894,313个,测试集898,692个。

附加信息

许可信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作