MultiCoNER/multiconer_v2

Name: MultiCoNER/multiconer_v2
Creator: MultiCoNER
Published: 2023-07-06 18:37:15
License: 暂无描述

Hugging Face2023-07-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MultiCoNER/multiconer_v2

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 task_categories: - token-classification language: - bn - zh - de - en - es - fa - fr - hi - it - pt - sv - uk tags: - multiconer - ner - multilingual - named entity recognition - fine-grained ner size_categories: - 100K<n<1M --- # Dataset Card for Multilingual Complex Named Entity Recognition (MultiCoNER) ## Dataset Description - **Homepage:** https://multiconer.github.io - **Repository:** - **Paper:** - **Leaderboard:** https://multiconer.github.io/results, https://codalab.lisn.upsaclay.fr/competitions/10025 - **Point of Contact:** https://multiconer.github.io/organizers ### Dataset Summary The tagset of MultiCoNER is a fine-grained tagset. The fine to coarse level mapping of the tags are as follows: * Location (LOC) : Facility, OtherLOC, HumanSettlement, Station * Creative Work (CW) : VisualWork, MusicalWork, WrittenWork, ArtWork, Software * Group (GRP) : MusicalGRP, PublicCORP, PrivateCORP, AerospaceManufacturer, SportsGRP, CarManufacturer, ORG * Person (PER) : Scientist, Artist, Athlete, Politician, Cleric, SportsManager, OtherPER * Product (PROD) : Clothing, Vehicle, Food, Drink, OtherPROD * Medical (MED) : Medication/Vaccine, MedicalProcedure, AnatomicalStructure, Symptom, Disease ### Supported Tasks and Leaderboards The final leaderboard of the shared task is available <a href="https://multiconer.github.io/results" target="_blank">here</a>. ### Languages Supported languages are Bangla, Chinese, English, Spanish, Farsi, French, German, Hindi, Italian, Portuguese, Swedish, Ukrainian. ## Dataset Structure The dataset follows CoNLL format. ### Data Instances Here are some examples in different languages: * Bangla: [লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন। * Chinese: 它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧. * English: [wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival . * Farsi: است] ناگویا |HumanSettlement] مرکزاین استان شهر * French: l [amiral de coligny | Politician] réussit à s y glisser . * German: in [frühgeborenes | Disease] führt dies zu [irds | Symptom] . * Hindi: १७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया। * Italian: è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] . * Portuguese: também é utilizado para se fazer [licor | Drink] e [vinhos | Drink]. * Spanish: fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] . * Swedish: [tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] . * Ukrainian: назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] . ### Data Fields The data has two fields. One is the token and another is the label. Here is an example from the English data. ``` # id f5458a3a-cd23-4df4-8384-4e23fe33a66b domain=en doris _ _ B-Artist day _ _ I-Artist included _ _ O in _ _ O the _ _ O album _ _ O billy _ _ B-MusicalWork rose _ _ I-MusicalWork 's _ _ I-MusicalWork jumbo _ _ I-MusicalWork ``` ### Data Splits Train, Dev, and Test splits are provided ## Dataset Creation TBD ## Loading the Dataset ```python from datasets import load_dataset english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)') ``` ### Licensing Information CC BY 4.0 ### Citation Information ``` @inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, } @article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, } ```

license: 知识共享署名4.0（CC BY 4.0） task_categories: - 令牌分类（token-classification） language: - bn（孟加拉语） - zh（中文） - de（德语） - en（英语） - es（西班牙语） - fa（波斯语） - fr（法语） - hi（印地语） - it（意大利语） - pt（葡萄牙语） - sv（瑞典语） - uk（乌克兰语） tags: - multiconer（MultiCoNER） - ner（命名实体识别，NER） - multilingual（多语言） - named entity recognition（命名实体识别） - fine-grained ner（细粒度命名实体识别） size_categories: - 100K<n<1M --- # 多语言复杂命名实体识别（MultiCoNER）数据集卡片 ## 数据集描述 - **官方主页：** https://multiconer.github.io - **代码仓库：** - **相关论文：** - **排行榜：** https://multiconer.github.io/results, https://codalab.lisn.upsaclay.fr/competitions/10025 - **联系人：** https://multiconer.github.io/organizers ### 数据集概览 MultiCoNER采用细粒度标注体系，标注的细粒度到粗粒度映射关系如下： * 位置（LOC）：设施（Facility）、其他位置（OtherLOC）、人类聚居地（HumanSettlement）、站点（Station） * 创作作品（CW）：视觉作品（VisualWork）、音乐作品（MusicalWork）、文字作品（WrittenWork）、艺术作品（ArtWork）、软件（Software） * 群体（GRP）：音乐团体（MusicalGRP）、公共企业（PublicCORP）、私人企业（PrivateCORP）、航空航天制造商（AerospaceManufacturer）、体育团体（SportsGRP）、汽车制造商（CarManufacturer）、组织（ORG） * 人物（PER）：科学家（Scientist）、艺术家（Artist）、运动员（Athlete）、政治家（Politician）、神职人员（Cleric）、体育经理（SportsManager）、其他人物（OtherPER） * 产品（PROD）：服装（Clothing）、交通工具（Vehicle）、食品（Food）、饮品（Drink）、其他产品（OtherPROD） * 医疗（MED）：药物/疫苗（Medication/Vaccine）、医疗程序（MedicalProcedure）、解剖结构（AnatomicalStructure）、症状（Symptom）、疾病（Disease） ### 支持任务与排行榜本次共享任务的最终排行榜可<a href="https://multiconer.github.io/results" target="_blank">点击此处</a>查看。 ### 支持语言本次数据集支持孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语、乌克兰语。 ## 数据集结构本次数据集遵循CoNLL格式规范。 ### 数据样例以下为不同语言的部分标注样例： * 孟加拉语：[লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন। * 中文：它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧。 * 英语：[wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival . * 波斯语： است] ناگویا |HumanSettlement] مرکزاین استان شهر * 法语：l [amiral de coligny | Politician] réussit à s y glisser . * 德语：in [frühgeborenes | Disease] führt dies zu [irds | Symptom] . * 印地语：१७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया। * 意大利语：è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] . * 葡萄牙语：também é utilizado para se fazer [licor | Drink] e [vinhos | Drink]. * 西班牙语：fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] . * 瑞典语：[tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] . * 乌克兰语：назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] . ### 数据字段本次数据集包含两个字段：令牌（token）与标签（label）。以下为英语数据集的样例： # id f5458a3a-cd23-4df4-8384-4e23fe33a66b domain=en doris _ _ B-Artist day _ _ I-Artist included _ _ O in _ _ O the _ _ O album _ _ O billy _ _ B-MusicalWork rose _ _ I-MusicalWork 's _ _ I-MusicalWork jumbo _ _ I-MusicalWork ### 数据划分本次数据集提供训练集、开发集与测试集三种划分。 ## 数据集构建待补充（TBD） ## 数据集加载 python from datasets import load_dataset english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)') ### 授权协议知识共享署名4.0（CC BY 4.0） ### 引用信息 @inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, } @article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, }

提供机构：

MultiCoNER

原始信息汇总

数据集概述

数据集名称

MultiCoNER (Multilingual Complex Named Entity Recognition)

许可证

CC BY 4.0

语言支持

Bangla
Chinese
English
Spanish
Farsi
French
German
Hindi
Italian
Portuguese
Swedish
Ukrainian

标签集

Location (LOC): Facility, OtherLOC, HumanSettlement, Station
Creative Work (CW): VisualWork, MusicalWork, WrittenWork, ArtWork, Software
Group (GRP): MusicalGRP, PublicCORP, PrivateCORP, AerospaceManufacturer, SportsGRP, CarManufacturer, ORG
Person (PER): Scientist, Artist, Athlete, Politician, Cleric, SportsManager, OtherPER
Product (PROD): Clothing, Vehicle, Food, Drink, OtherPROD
Medical (MED): Medication/Vaccine, MedicalProcedure, AnatomicalStructure, Symptom, Disease

数据集结构

格式: CoNLL
数据实例: 包含不同语言的示例
数据字段: 包含两个字段，即token和label

数据分割

Train
Dev
Test

加载数据集示例

python from datasets import load_dataset

english_data = load_dataset(MultiCoNER/multiconer_v2, English (EN))

引用信息

@inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, }

@article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言复杂命名实体识别（MultiCoNER）数据集的构建体现了对跨语言语义理解的深度探索。该数据集遵循CoNLL格式，通过精细的标注体系，将命名实体划分为六大粗粒度类别，并进一步细化为二十余种子类别，如将“地点”细分为设施、人类定居点等。数据来源于十二种语言的真实文本，涵盖新闻、百科等多种领域，确保了语料的多样性和代表性。标注过程采用统一的规范，每个数据实例包含词元与标签的对应关系，并通过训练集、验证集和测试集的划分，为模型评估提供了结构化基础。

使用方法

使用MultiCoNER数据集时，研究者可通过Hugging Face的datasets库便捷加载，例如指定语言参数如'English (EN)'以获取英语子集。数据以标准化的词元-标签对形式呈现，可直接应用于基于Transformer的模型进行序列标注任务。在预处理阶段，建议结合多语言词嵌入或预训练模型以处理语言差异，并利用提供的训练-验证-测试分割进行模型训练与评估。该数据集适用于微调命名实体识别模型，支持跨语言迁移学习，用户可参考相关论文和排行榜以优化性能，同时遵循CC BY 4.0许可确保合规使用。

背景与挑战

背景概述

在自然语言处理领域，细粒度命名实体识别（NER）作为信息抽取的核心任务，旨在从文本中识别并分类更具体、更细致的实体类型。MultiCoNER v2数据集由SemEval-2023 Task 2组织者于2023年发布，其研究团队包括Besnik Fetahu、Sudipta Kar、Zhiyu Chen、Oleg Rokhlenko和Shervin Malmasi等学者。该数据集聚焦于多语言环境下复杂实体的精细识别，覆盖了包括孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语和乌克兰语在内的12种语言。通过引入一个层次化的标签体系，将实体划分为位置、创意作品、团体、人物、产品和医疗六大粗粒度类别，并进一步细分为如设施、音乐作品、科学家、疾病等30余个子类别，显著推动了跨语言细粒度NER模型的发展，为多语言信息处理系统提供了重要的基准资源。

当前挑战

MultiCoNER v2数据集所针对的领域挑战在于多语言细粒度命名实体识别的复杂性，这要求模型不仅能够处理跨语言的语义差异，还需准确区分实体在精细类别上的微妙界限，例如区分“艺术家”与“政治家”等子类别，这对模型的语义理解能力和泛化性能提出了较高要求。在数据集构建过程中，面临的挑战包括多语言文本的收集与标注一致性维护，尤其是在低资源语言中确保标注质量；同时，数据中存在的噪声问题，如实体边界的模糊性或标注错误，增加了模型训练的难度。此外，数据集的规模虽达数十万级别，但在某些语言或实体子类上仍可能存在数据不平衡现象，影响模型的鲁棒性和公平性评估。

常用场景

经典使用场景

在自然语言处理领域，多语言复杂命名实体识别（MultiCoNER v2）数据集为研究者提供了一个统一的基准平台，用于评估和比较跨语言的细粒度实体识别模型性能。该数据集覆盖了包括中文、英文、西班牙语等在内的12种语言，并定义了如地点、创意作品、人物等六大类别的精细标签体系，特别适用于处理实体边界模糊、类别重叠的复杂语境。通过这一数据集，研究者能够系统地探索模型在多样化语言和文化背景下的泛化能力，推动了多语言NLP技术的标准化进程。

解决学术问题

MultiCoNER v2数据集主要解决了传统命名实体识别任务中标签粒度粗、跨语言泛化能力不足的学术难题。传统数据集往往局限于通用实体类别（如人名、地名），而该数据集引入了设施、艺术作品、疾病症状等细粒度标签，有助于模型捕捉更丰富的语义信息。同时，其多语言特性为研究语言间的迁移学习、低资源语言处理提供了数据基础，显著提升了模型在真实世界嘈杂文本中的鲁棒性，为跨语言信息抽取和知识图谱构建奠定了理论支撑。

实际应用

在实际应用中，MultiCoNER v2数据集被广泛用于构建智能搜索引擎、多语言内容推荐系统和跨语言信息检索工具。例如，在全球化企业的客户服务中，该数据集训练的模型能够自动识别多语言用户查询中的产品名称、技术术语或医疗实体，从而提升自动化响应的准确性。此外，在数字人文领域，它支持对多语言历史文献、社交媒体文本进行实体标注，助力文化遗产的数字化整理与知识发现，体现了其在现实场景中的实用价值。

数据集最近研究