five

MultiCoNER2023命名实体识别数据集_检索增强128

收藏
魔搭社区2026-04-21 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/pangda/multico_ner_2023_wiki128
下载链接
链接失效反馈
官方服务:
资源简介:
# MultiCoNER2023命名实体识别数据集_检索增强128 本数据来自[SemEval 2023 Task 2: MultiCoNER II Multilingual Complex Named Entity Recognition](https://multiconer.github.io/),在原始数据上使用wiki数据进行检索增强,最终保留128长度。 ## 数据集加载方式 ``` from modelscope.msdatasets import MsDataset train_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='train') dev_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='dev') test_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='test') ``` ## 语种及数据量 | lang | train | dev | test | | ---- | ----- | --- | ------ | | bn | 9708 | 507 | 19859 | | de | 9785 | 512 | 20145 | | en | 16778 | 871 | 249980 | | es | 16453 | 854 | 246900 | | fa | 16321 | 855 | 219168 | | fr | 16548 | 857 | 249786 | | hi | 9632 | 514 | 18399 | | it | 16579 | 858 | 247881 | | pt | 16469 | 854 | 229490 | | sv | 16363 | 856 | 231190 | | uk | 16429 | 851 | 238296 | | zh | 9759 | 506 | 20265 |

# MultiCoNER 2023 命名实体识别数据集_维基检索增强版(样本长度128) 本数据集源自[SemEval 2023任务2:MultiCoNER Ⅱ 多语种复杂命名实体识别(MultiCoNER II Multilingual Complex Named Entity Recognition)](https://multiconer.github.io/)赛事的公开原始数据,我们通过维基百科(wiki)数据对原始数据集进行检索增强处理,并将所有样本统一规整至128长度。 ## 数据集加载方法 from modelscope.msdatasets import MsDataset train_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='train') dev_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='dev') test_datasets = MsDataset.load('multico_ner_2023_wiki128', subset_name='zh', namespace='pangda', split='test') ## 语种分布与数据规模 | 语言代码 | 训练集 | 开发集 | 测试集 | | ---- | ----- | --- | ------ | | bn | 9708 | 507 | 19859 | | de | 9785 | 512 | 20145 | | en | 16778 | 871 | 249980 | | es | 16453 | 854 | 246900 | | fa | 16321 | 855 | 219168 | | fr | 16548 | 857 | 249786 | | hi | 9632 | 514 | 18399 | | it | 16579 | 858 | 247881 | | pt | 16469 | 854 | 229490 | | sv | 16363 | 856 | 231190 | | uk | 16429 | 851 | 238296 | | zh | 9759 | 506 | 20265 |
提供机构:
maas
创建时间:
2022-12-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
本数据集基于SemEval 2023 Task 2的MultiCoNER II任务构建,通过wiki数据检索增强并截取128长度,用于多语言复杂命名实体识别。它包含12种语言的数据,如英语、中文等,并提供了训练、开发和测试集的分割。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务