MultiCoNER2023命名实体识别数据集_检索增强128
收藏魔搭社区2026-04-21 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/pangda/multico_ner_2023_wiki128
下载链接
链接失效反馈官方服务:
资源简介:
# MultiCoNER2023命名实体识别数据集_检索增强128
本数据来自[SemEval 2023 Task 2: MultiCoNER II
Multilingual Complex Named Entity Recognition](https://multiconer.github.io/),在原始数据上使用wiki数据进行检索增强,最终保留128长度。
## 数据集加载方式
```
from modelscope.msdatasets import MsDataset
train_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='train')
dev_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='dev')
test_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='test')
```
## 语种及数据量
| lang | train | dev | test |
| ---- | ----- | --- | ------ |
| bn | 9708 | 507 | 19859 |
| de | 9785 | 512 | 20145 |
| en | 16778 | 871 | 249980 |
| es | 16453 | 854 | 246900 |
| fa | 16321 | 855 | 219168 |
| fr | 16548 | 857 | 249786 |
| hi | 9632 | 514 | 18399 |
| it | 16579 | 858 | 247881 |
| pt | 16469 | 854 | 229490 |
| sv | 16363 | 856 | 231190 |
| uk | 16429 | 851 | 238296 |
| zh | 9759 | 506 | 20265 |
# MultiCoNER 2023 命名实体识别数据集_维基检索增强版(样本长度128)
本数据集源自[SemEval 2023任务2:MultiCoNER Ⅱ 多语种复杂命名实体识别(MultiCoNER II Multilingual Complex Named Entity Recognition)](https://multiconer.github.io/)赛事的公开原始数据,我们通过维基百科(wiki)数据对原始数据集进行检索增强处理,并将所有样本统一规整至128长度。
## 数据集加载方法
from modelscope.msdatasets import MsDataset
train_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='train')
dev_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='dev')
test_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='test')
## 语种分布与数据规模
| 语言代码 | 训练集 | 开发集 | 测试集 |
| ---- | ----- | --- | ------ |
| bn | 9708 | 507 | 19859 |
| de | 9785 | 512 | 20145 |
| en | 16778 | 871 | 249980 |
| es | 16453 | 854 | 246900 |
| fa | 16321 | 855 | 219168 |
| fr | 16548 | 857 | 249786 |
| hi | 9632 | 514 | 18399 |
| it | 16579 | 858 | 247881 |
| pt | 16469 | 854 | 229490 |
| sv | 16363 | 856 | 231190 |
| uk | 16429 | 851 | 238296 |
| zh | 9759 | 506 | 20265 |
提供机构:
maas
创建时间:
2022-12-28
搜集汇总
数据集介绍

背景与挑战
背景概述
本数据集基于SemEval 2023 Task 2的MultiCoNER II任务构建,通过wiki数据检索增强并截取128长度,用于多语言复杂命名实体识别。它包含12种语言的数据,如英语、中文等,并提供了训练、开发和测试集的分割。
以上内容由遇见数据集搜集并总结生成



