five

DaMuEL

收藏
arXiv2023-06-16 更新2024-06-21 收录
下载链接:
https://hdl.handle.net/11234/1-5047
下载链接
链接失效反馈
官方服务:
资源简介:
DaMuEL是一个大规模的多语言实体链接数据集,由查尔斯大学数学与物理学院形式与应用语言学研究所创建,涵盖53种语言。该数据集包含两个主要部分:一个包含实体语言无关信息的知识库,以及与知识库链接的维基百科文本,同时包含维基数据中的语言特定文本,如标签、别名和描述。数据集使用维基数据QID作为持久、语言无关的标识符,便于将知识库与每种语言的特定文本和信息结合。此外,数据集还包含27.9M个命名实体和12.3G来自维基百科文本的tokens。DaMuEL旨在支持多语言环境下的实体链接研究,解决跨语言信息检索和问答系统中的实体识别与链接问题。

DaMuEL is a large-scale multilingual entity linking dataset created by the Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, covering 53 languages. The dataset consists of two main components: a knowledge base containing language-agnostic entity information, and Wikipedia texts linked to the knowledge base, alongside language-specific texts from Wikidata including labels, aliases and descriptions. It adopts Wikidata QIDs as persistent, language-independent identifiers to facilitate the integration of the knowledge base with language-specific texts and information for each covered language. Additionally, the dataset contains 27.9 million named entities and 12.3 billion tokens extracted from Wikipedia texts. DaMuEL aims to support entity linking research in multilingual settings, addressing entity recognition and linking issues in cross-lingual information retrieval and question answering systems.
提供机构:
查尔斯大学数学与物理学院形式与应用语言学研究所
创建时间:
2023-06-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作