Babelscape/multinerd

Name: Babelscape/multinerd
Creator: Babelscape
Published: 2023-04-20 12:43:31
License: 暂无描述

Hugging Face2023-04-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Babelscape/multinerd

下载链接

链接失效反馈

官方服务：

资源简介：

MultiNERD数据集是首个语言无关的方法，用于自动创建多语言、多类型和细粒度的命名实体识别（NER）和实体消歧注释。该数据集覆盖10种语言（中文、荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语和西班牙语），15个NER类别（人物、地点、组织、动物、生物实体、天体、疾病、事件、食物、仪器、媒体、植物、神话实体、时间和交通工具），以及2种文本类型（维基百科和维基新闻）。数据集结构包括tokens、ner_tags和lang字段，并提供了完整的标签集。

提供机构：

Babelscape

原始信息汇总

数据集概述

基本信息

名称: MultiNERD-dataset
语言: 包含10种语言，包括中文(zh)、荷兰语(nl)、英语(en)、法语(fr)、德语(de)、意大利语(it)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、西班牙语(es)
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
多语言性: 多语言
数据来源: 原始数据
任务类别: 令牌分类
任务ID: 命名实体识别
标签: 结构预测

数据集描述

摘要: MultiNERD是首个语言无关的方法，用于自动创建多语言、多类型和细粒度的命名实体识别和实体消歧注释。该数据集覆盖10种语言、15个NER类别和2种文本类型。
详细描述: 数据集扩展自两个先前的工作：WikiNEuRal和NER4EL，分别用于银数据创建方法和细粒度类别及实体链接部分。

数据集结构

数据字段:
- tokens: 字符串列表
- ner_tags: 分类标签列表（整数）
- lang: 字符串，表示语言
标签集: 包含31个标签，用于标识不同类型的实体。

附加信息

许可证信息: 数据集内容仅限于非商业研究目的。
引用信息: 使用此数据集时，请引用相关论文。
贡献者: 感谢@sted97添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集