five

MultiCoNER/multiconer_v2

收藏
Hugging Face2023-07-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MultiCoNER/multiconer_v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - token-classification language: - bn - zh - de - en - es - fa - fr - hi - it - pt - sv - uk tags: - multiconer - ner - multilingual - named entity recognition - fine-grained ner size_categories: - 100K<n<1M --- # Dataset Card for Multilingual Complex Named Entity Recognition (MultiCoNER) ## Dataset Description - **Homepage:** https://multiconer.github.io - **Repository:** - **Paper:** - **Leaderboard:** https://multiconer.github.io/results, https://codalab.lisn.upsaclay.fr/competitions/10025 - **Point of Contact:** https://multiconer.github.io/organizers ### Dataset Summary The tagset of MultiCoNER is a fine-grained tagset. The fine to coarse level mapping of the tags are as follows: * Location (LOC) : Facility, OtherLOC, HumanSettlement, Station * Creative Work (CW) : VisualWork, MusicalWork, WrittenWork, ArtWork, Software * Group (GRP) : MusicalGRP, PublicCORP, PrivateCORP, AerospaceManufacturer, SportsGRP, CarManufacturer, ORG * Person (PER) : Scientist, Artist, Athlete, Politician, Cleric, SportsManager, OtherPER * Product (PROD) : Clothing, Vehicle, Food, Drink, OtherPROD * Medical (MED) : Medication/Vaccine, MedicalProcedure, AnatomicalStructure, Symptom, Disease ### Supported Tasks and Leaderboards The final leaderboard of the shared task is available <a href="https://multiconer.github.io/results" target="_blank">here</a>. ### Languages Supported languages are Bangla, Chinese, English, Spanish, Farsi, French, German, Hindi, Italian, Portuguese, Swedish, Ukrainian. ## Dataset Structure The dataset follows CoNLL format. ### Data Instances Here are some examples in different languages: * Bangla: [লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন। * Chinese: 它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧. * English: [wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival . * Farsi: است] ناگویا |HumanSettlement] مرکزاین استان شهر * French: l [amiral de coligny | Politician] réussit à s y glisser . * German: in [frühgeborenes | Disease] führt dies zu [irds | Symptom] . * Hindi: १७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया। * Italian: è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] . * Portuguese: também é utilizado para se fazer [licor | Drink] e [vinhos | Drink]. * Spanish: fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] . * Swedish: [tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] . * Ukrainian: назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] . ### Data Fields The data has two fields. One is the token and another is the label. Here is an example from the English data. ``` # id f5458a3a-cd23-4df4-8384-4e23fe33a66b domain=en doris _ _ B-Artist day _ _ I-Artist included _ _ O in _ _ O the _ _ O album _ _ O billy _ _ B-MusicalWork rose _ _ I-MusicalWork 's _ _ I-MusicalWork jumbo _ _ I-MusicalWork ``` ### Data Splits Train, Dev, and Test splits are provided ## Dataset Creation TBD ## Loading the Dataset ```python from datasets import load_dataset english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)') ``` ### Licensing Information CC BY 4.0 ### Citation Information ``` @inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, } @article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, } ```

license: 知识共享署名4.0(CC BY 4.0) task_categories: - 令牌分类(token-classification) language: - bn(孟加拉语) - zh(中文) - de(德语) - en(英语) - es(西班牙语) - fa(波斯语) - fr(法语) - hi(印地语) - it(意大利语) - pt(葡萄牙语) - sv(瑞典语) - uk(乌克兰语) tags: - multiconer(MultiCoNER) - ner(命名实体识别,NER) - multilingual(多语言) - named entity recognition(命名实体识别) - fine-grained ner(细粒度命名实体识别) size_categories: - 100K<n<1M --- # 多语言复杂命名实体识别(MultiCoNER)数据集卡片 ## 数据集描述 - **官方主页:** https://multiconer.github.io - **代码仓库:** - **相关论文:** - **排行榜:** https://multiconer.github.io/results, https://codalab.lisn.upsaclay.fr/competitions/10025 - **联系人:** https://multiconer.github.io/organizers ### 数据集概览 MultiCoNER采用细粒度标注体系,标注的细粒度到粗粒度映射关系如下: * 位置(LOC):设施(Facility)、其他位置(OtherLOC)、人类聚居地(HumanSettlement)、站点(Station) * 创作作品(CW):视觉作品(VisualWork)、音乐作品(MusicalWork)、文字作品(WrittenWork)、艺术作品(ArtWork)、软件(Software) * 群体(GRP):音乐团体(MusicalGRP)、公共企业(PublicCORP)、私人企业(PrivateCORP)、航空航天制造商(AerospaceManufacturer)、体育团体(SportsGRP)、汽车制造商(CarManufacturer)、组织(ORG) * 人物(PER):科学家(Scientist)、艺术家(Artist)、运动员(Athlete)、政治家(Politician)、神职人员(Cleric)、体育经理(SportsManager)、其他人物(OtherPER) * 产品(PROD):服装(Clothing)、交通工具(Vehicle)、食品(Food)、饮品(Drink)、其他产品(OtherPROD) * 医疗(MED):药物/疫苗(Medication/Vaccine)、医疗程序(MedicalProcedure)、解剖结构(AnatomicalStructure)、症状(Symptom)、疾病(Disease) ### 支持任务与排行榜 本次共享任务的最终排行榜可<a href="https://multiconer.github.io/results" target="_blank">点击此处</a>查看。 ### 支持语言 本次数据集支持孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语、乌克兰语。 ## 数据集结构 本次数据集遵循CoNLL格式规范。 ### 数据样例 以下为不同语言的部分标注样例: * 孟加拉语:[লিটল মিক্স | MusicalGrp] এ যোগদানের আগে তিনি [পিৎজা হাট | ORG] এ ওয়েট্রেস হিসাবে কাজ করেছিলেন। * 中文:它的纤维穿过 [锁骨 | AnatomicalStructure] 并沿颈部侧面倾斜向上和内侧。 * 英语:[wes anderson | Artist]'s film [the grand budapest hotel | VisualWork] opened the festival . * 波斯语: است] ناگویا |HumanSettlement] مرکزاین استان شهر * 法语:l [amiral de coligny | Politician] réussit à s y glisser . * 德语:in [frühgeborenes | Disease] führt dies zu [irds | Symptom] . * 印地语:१७९६ में उन्हें [शाही स्वीडिश विज्ञान अकादमी | Facility] का सदस्य चुना गया। * 意大利语:è conservato nel [rijksmuseum | Facility] di [amsterdam | HumanSettlement] . * 葡萄牙语:também é utilizado para se fazer [licor | Drink] e [vinhos | Drink]. * 西班牙语:fue superado por el [aon center | Facility] de [los ángeles | HumanSettlement] . * 瑞典语:[tom hamilton | Artist] amerikansk musiker basist i [aerosmith | MusicalGRP] . * 乌克兰语:назва альбому походить з роману « [кінець дитинства | WrittenWork] » англійського письменника [артура кларка | Artist] . ### 数据字段 本次数据集包含两个字段:令牌(token)与标签(label)。以下为英语数据集的样例: # id f5458a3a-cd23-4df4-8384-4e23fe33a66b domain=en doris _ _ B-Artist day _ _ I-Artist included _ _ O in _ _ O the _ _ O album _ _ O billy _ _ B-MusicalWork rose _ _ I-MusicalWork 's _ _ I-MusicalWork jumbo _ _ I-MusicalWork ### 数据划分 本次数据集提供训练集、开发集与测试集三种划分。 ## 数据集构建 待补充(TBD) ## 数据集加载 python from datasets import load_dataset english_data = load_dataset('MultiCoNER/multiconer_v2', 'English (EN)') ### 授权协议 知识共享署名4.0(CC BY 4.0) ### 引用信息 @inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, } @article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, }
提供机构:
MultiCoNER
原始信息汇总

数据集概述

数据集名称

MultiCoNER (Multilingual Complex Named Entity Recognition)

许可证

CC BY 4.0

语言支持

  • Bangla
  • Chinese
  • English
  • Spanish
  • Farsi
  • French
  • German
  • Hindi
  • Italian
  • Portuguese
  • Swedish
  • Ukrainian

标签集

  • Location (LOC): Facility, OtherLOC, HumanSettlement, Station
  • Creative Work (CW): VisualWork, MusicalWork, WrittenWork, ArtWork, Software
  • Group (GRP): MusicalGRP, PublicCORP, PrivateCORP, AerospaceManufacturer, SportsGRP, CarManufacturer, ORG
  • Person (PER): Scientist, Artist, Athlete, Politician, Cleric, SportsManager, OtherPER
  • Product (PROD): Clothing, Vehicle, Food, Drink, OtherPROD
  • Medical (MED): Medication/Vaccine, MedicalProcedure, AnatomicalStructure, Symptom, Disease

数据集结构

  • 格式: CoNLL
  • 数据实例: 包含不同语言的示例
  • 数据字段: 包含两个字段,即token和label

数据分割

  • Train
  • Dev
  • Test

加载数据集示例

python from datasets import load_dataset

english_data = load_dataset(MultiCoNER/multiconer_v2, English (EN))

引用信息

@inproceedings{multiconer2-report, title={{SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2)}}, author={Fetahu, Besnik and Kar, Sudipta and Chen, Zhiyu and Rokhlenko, Oleg and Malmasi, Shervin}, booktitle={Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)}, year={2023}, publisher={Association for Computational Linguistics}, }

@article{multiconer2-data, title={{MultiCoNER v2: a Large Multilingual dataset for Fine-grained and Noisy Named Entity Recognition}}, author={Fetahu, Besnik and Chen, Zhiyu and Kar, Sudipta and Rokhlenko, Oleg and Malmasi, Shervin}, year={2023}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,多语言复杂命名实体识别(MultiCoNER)数据集的构建体现了对跨语言语义理解的深度探索。该数据集遵循CoNLL格式,通过精细的标注体系,将命名实体划分为六大粗粒度类别,并进一步细化为二十余种子类别,如将“地点”细分为设施、人类定居点等。数据来源于十二种语言的真实文本,涵盖新闻、百科等多种领域,确保了语料的多样性和代表性。标注过程采用统一的规范,每个数据实例包含词元与标签的对应关系,并通过训练集、验证集和测试集的划分,为模型评估提供了结构化基础。
使用方法
使用MultiCoNER数据集时,研究者可通过Hugging Face的datasets库便捷加载,例如指定语言参数如'English (EN)'以获取英语子集。数据以标准化的词元-标签对形式呈现,可直接应用于基于Transformer的模型进行序列标注任务。在预处理阶段,建议结合多语言词嵌入或预训练模型以处理语言差异,并利用提供的训练-验证-测试分割进行模型训练与评估。该数据集适用于微调命名实体识别模型,支持跨语言迁移学习,用户可参考相关论文和排行榜以优化性能,同时遵循CC BY 4.0许可确保合规使用。
背景与挑战
背景概述
在自然语言处理领域,细粒度命名实体识别(NER)作为信息抽取的核心任务,旨在从文本中识别并分类更具体、更细致的实体类型。MultiCoNER v2数据集由SemEval-2023 Task 2组织者于2023年发布,其研究团队包括Besnik Fetahu、Sudipta Kar、Zhiyu Chen、Oleg Rokhlenko和Shervin Malmasi等学者。该数据集聚焦于多语言环境下复杂实体的精细识别,覆盖了包括孟加拉语、中文、英语、西班牙语、波斯语、法语、德语、印地语、意大利语、葡萄牙语、瑞典语和乌克兰语在内的12种语言。通过引入一个层次化的标签体系,将实体划分为位置、创意作品、团体、人物、产品和医疗六大粗粒度类别,并进一步细分为如设施、音乐作品、科学家、疾病等30余个子类别,显著推动了跨语言细粒度NER模型的发展,为多语言信息处理系统提供了重要的基准资源。
当前挑战
MultiCoNER v2数据集所针对的领域挑战在于多语言细粒度命名实体识别的复杂性,这要求模型不仅能够处理跨语言的语义差异,还需准确区分实体在精细类别上的微妙界限,例如区分“艺术家”与“政治家”等子类别,这对模型的语义理解能力和泛化性能提出了较高要求。在数据集构建过程中,面临的挑战包括多语言文本的收集与标注一致性维护,尤其是在低资源语言中确保标注质量;同时,数据中存在的噪声问题,如实体边界的模糊性或标注错误,增加了模型训练的难度。此外,数据集的规模虽达数十万级别,但在某些语言或实体子类上仍可能存在数据不平衡现象,影响模型的鲁棒性和公平性评估。
常用场景
经典使用场景
在自然语言处理领域,多语言复杂命名实体识别(MultiCoNER v2)数据集为研究者提供了一个统一的基准平台,用于评估和比较跨语言的细粒度实体识别模型性能。该数据集覆盖了包括中文、英文、西班牙语等在内的12种语言,并定义了如地点、创意作品、人物等六大类别的精细标签体系,特别适用于处理实体边界模糊、类别重叠的复杂语境。通过这一数据集,研究者能够系统地探索模型在多样化语言和文化背景下的泛化能力,推动了多语言NLP技术的标准化进程。
解决学术问题
MultiCoNER v2数据集主要解决了传统命名实体识别任务中标签粒度粗、跨语言泛化能力不足的学术难题。传统数据集往往局限于通用实体类别(如人名、地名),而该数据集引入了设施、艺术作品、疾病症状等细粒度标签,有助于模型捕捉更丰富的语义信息。同时,其多语言特性为研究语言间的迁移学习、低资源语言处理提供了数据基础,显著提升了模型在真实世界嘈杂文本中的鲁棒性,为跨语言信息抽取和知识图谱构建奠定了理论支撑。
实际应用
在实际应用中,MultiCoNER v2数据集被广泛用于构建智能搜索引擎、多语言内容推荐系统和跨语言信息检索工具。例如,在全球化企业的客户服务中,该数据集训练的模型能够自动识别多语言用户查询中的产品名称、技术术语或医疗实体,从而提升自动化响应的准确性。此外,在数字人文领域,它支持对多语言历史文献、社交媒体文本进行实体标注,助力文化遗产的数字化整理与知识发现,体现了其在现实场景中的实用价值。
数据集最近研究
最新研究方向
在细粒度多语言命名实体识别领域,MultiCoNER v2数据集正推动前沿研究聚焦于跨语言复杂实体边界与语义消歧。该数据集涵盖12种语言,其精细标注体系如将“人物”细分为科学家、艺术家等子类,为应对多语言环境下实体表达的多样性与噪声挑战提供了关键基准。当前研究热点集中于利用多语言预训练模型进行零样本或小样本迁移学习,以提升低资源语言的识别性能;同时,结合上下文增强与对抗训练方法,解决实体歧义和领域适应问题,显著促进了全球化信息抽取系统的鲁棒性与可扩展性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作