adithya7/xlel_wd
收藏Hugging Face2022-07-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adithya7/xlel_wd
下载链接
链接失效反馈官方服务:
资源简介:
XLEL-WD是一个多语言事件链接数据集,包含从多语言维基百科/维基新闻文章中提及的事件到Wikidata中事件项目的引用。数据集的事件描述来自相应的维基百科文章。该数据集支持多语言和跨语言的事件链接任务,并包含44种语言的文本。数据集的创建过程涉及从Wikidata中识别事件项目,并找到对应的多语言维基百科页面,最后从这些页面中提取超链接。数据集的结构包括训练、开发和测试集,每个实例包含提及的文本、上下文信息、语言和Wikidata标签ID。
提供机构:
adithya7
原始信息汇总
数据集概述
数据集名称: XLEL-WD
描述: XLEL-WD是一个多语言事件链接数据集,包含多语言Wikipedia/Wikinews文章中提到的事件项的引用。这些事件项来自Wikidata,其描述从相应的Wikipedia文章中提取。
语言: 包含44种语言,包括Afrikaans, Arabic, Belarusian, Bulgarian等。
许可证: CC-BY-4.0
多语言性: 多语言
大小: 1M<n<10M
源数据: 原始数据
数据集结构
数据实例: 每个实例包含以下字段:
mention: 提及的文本范围context_left: 文档中提及的左侧段落上下文context_right: 文档中提及的右侧段落上下文context_lang: 上下文(及提及)的语言label_id: Wikidata事件的标签ID
数据分割: 数据集分为训练集、验证集和测试集。
数据集创建
采集理由: 该数据集有助于解决事件链接的任务,特别是使用Wikidata作为知识库,链接多语言Wikipedia和Wikinews文章中的提及。
源数据: 数据集的源数据来自Wikidata,通过其空间和时间属性识别事件项,并从多语言Wikipedia页面中提取相应信息。
注释: 数据集的注释(从Wikipedia/Wikinews到Wikidata的链接)由原始Wiki贡献者添加。
使用数据集的考虑
已知限制: XLEL-WD v1.0.0主要关注Wikidata中的事件名词,不包括如疾病爆发、军事攻势和战争等其他类型的事件项。



