MultiCoNER命名实体识别数据集
收藏魔搭社区2026-01-05 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/multico_ner
下载链接
链接失效反馈官方服务:
资源简介:
# MultiCoNER命名实体识别数据集
## 数据集概述
MultiCoNER数据集是面向通用领域的多语言命名实体识别数据集。
### 数据集简介
本数据集包括各个语言所对应的验证集,实体类型包括地名(LOC), 人名(PER), 公司名(CORP), 创作名(CW), 消费品(PROD), 其他组织名(GRP)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
2016 O
年 O
版 O
的 O
获 O
奖 O
者 O
triángulo B-CORP
de I-CORP
amor I-CORP
bizarro I-CORP
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@inproceedings{malmasi-etal-2022-semeval,
title = "{S}em{E}val-2022 Task 11: Multilingual Complex Named Entity Recognition ({M}ulti{C}o{NER})",
author = "Malmasi, Shervin and
Fang, Anjie and
Fetahu, Besnik and
Kar, Sudipta and
Rokhlenko, Oleg",
booktitle = "Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022)",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.semeval-1.196",
doi = "10.18653/v1/2022.semeval-1.196",
pages = "1412--1437",
}
```
# MultiCoNER命名实体识别数据集
## 数据集概述
MultiCoNER数据集是面向通用领域的多语言命名实体识别数据集。
### 数据集简介
本数据集涵盖多语言对应的验证集,实体类型包含地名(Location, LOC)、人名(Person, PER)、公司名(Corporation, CORP)、创作名(Creative Work, CW)、消费品(Product, PROD)以及其他组织名(Group, GRP)。
### 数据集格式与结构
数据采用CONLL标准格式,分为两列:第一列为输入语句的分词结果,第二列为每个分词对应的命名实体类型标签。具体示例如下:
2016 O
年 O
版 O
的 O
获 O
奖 O
者 O
triángulo B-CORP
de I-CORP
amor I-CORP
bizarro I-CORP
## 数据集版权信息
知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)
## 引用格式
bib
@inproceedings{malmasi-etal-2022-semeval,
title = "{S}em{E}val-2022 Task 11: Multilingual Complex Named Entity Recognition ({M}ulti{C}o{NER})",
author = "Malmasi, Shervin and
Fang, Anjie and
Fetahu, Besnik and
Kar, Sudipta and
Rokhlenko, Oleg",
booktitle = "Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022)",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.semeval-1.196",
doi = "10.18653/v1/2022.semeval-1.196",
pages = "1412--1437",
}
提供机构:
maas
创建时间:
2022-10-25
搜集汇总
数据集介绍

背景与挑战
背景概述
MultiCoNER是一个多语言通用领域命名实体识别数据集,包含多种语言的验证集,实体类型涵盖地点、人物、公司、创意作品、消费品和其他组织。数据采用conll标准格式,分为分词和对应标签两列。
以上内容由遇见数据集搜集并总结生成



