MultiCoNER2023命名实体识别数据集
收藏魔搭社区2026-01-09 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/pangda/multico_ner_2023
下载链接
链接失效反馈官方服务:
资源简介:
# MultiCoNER2023命名实体识别数据集
本数据来自[SemEval 2023 Task 2: MultiCoNER II
Multilingual Complex Named Entity Recognition](https://multiconer.github.io/)
## 数据集加载方式
```
from modelscope.msdatasets import MsDataset
train_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='train')
dev_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='dev')
test_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='test')
```
## 语种及数据量
| lang | train | dev | test |
| ---- | ----- | --- | ------ |
| bn | 9708 | 507 | 19859 |
| de | 9785 | 512 | 20145 |
| en | 16778 | 871 | 249980 |
| es | 16453 | 854 | 246900 |
| fa | 16321 | 855 | 219168 |
| fr | 16548 | 857 | 249786 |
| hi | 9632 | 514 | 18399 |
| it | 16579 | 858 | 247881 |
| pt | 16469 | 854 | 229490 |
| sv | 16363 | 856 | 231190 |
| uk | 16429 | 851 | 238296 |
| zh | 9759 | 506 | 20265 |
# MultiCoNER2023命名实体识别数据集
本数据集源自[SemEval 2023任务2:MultiCoNER II 多语言复杂命名实体识别(Multilingual Complex Named Entity Recognition)](https://multiconer.github.io/)
## 数据集加载方式
from modelscope.msdatasets import MsDataset
train_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='train')
dev_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='dev')
test_datasets = MsDataset.load('multico_ner_2023', subset_name='zh', namespace='pangda', split='test')
## 语种与数据规模
| 语种代码 | 训练集 | 开发集 | 测试集 |
| ---- | ----- | --- | ------ |
| bn | 9708 | 507 | 19859 |
| de | 9785 | 512 | 20145 |
| en | 16778 | 871 | 249980 |
| es | 16453 | 854 | 246900 |
| fa | 16321 | 855 | 219168 |
| fr | 16548 | 857 | 249786 |
| hi | 9632 | 514 | 18399 |
| it | 16579 | 858 | 247881 |
| pt | 16469 | 854 | 229490 |
| sv | 16363 | 856 | 231190 |
| uk | 16429 | 851 | 238296 |
| zh | 9759 | 506 | 20265 |
提供机构:
maas
创建时间:
2022-12-14
搜集汇总
数据集介绍

背景与挑战
背景概述
MultiCoNER2023命名实体识别数据集源自SemEval 2023 Task 2,专注于多语言复杂命名实体识别任务。该数据集覆盖包括中文在内的12种语言,提供训练、开发和测试集,并采用Apache License 2.0许可证发布。
以上内容由遇见数据集搜集并总结生成



