five

Babelscape/multinerd

收藏
Hugging Face2023-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/multinerd
下载链接
链接失效反馈
官方服务:
资源简介:
MultiNERD数据集是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别(NER)和实体消歧注释。该数据集覆盖10种语言(中文、荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语和西班牙语),15个NER类别(人物、地点、组织、动物、生物实体、天体、疾病、事件、食物、仪器、媒体、植物、神话实体、时间和交通工具),以及2种文本类型(维基百科和维基新闻)。数据集结构包括tokens、ner_tags和lang字段,并提供了完整的标签集。

MultiNERD数据集是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别(NER)和实体消歧注释。该数据集覆盖10种语言(中文、荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语和西班牙语),15个NER类别(人物、地点、组织、动物、生物实体、天体、疾病、事件、食物、仪器、媒体、植物、神话实体、时间和交通工具),以及2种文本类型(维基百科和维基新闻)。数据集结构包括tokens、ner_tags和lang字段,并提供了完整的标签集。
提供机构:
Babelscape
原始信息汇总

数据集概述

基本信息

  • 名称: MultiNERD-dataset
  • 语言: 包含10种语言,包括中文(zh)、荷兰语(nl)、英语(en)、法语(fr)、德语(de)、意大利语(it)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、西班牙语(es)
  • 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
  • 多语言性: 多语言
  • 数据来源: 原始数据
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 标签: 结构预测

数据集描述

  • 摘要: MultiNERD是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别和实体消歧注释。该数据集覆盖10种语言、15个NER类别和2种文本类型。
  • 详细描述: 数据集扩展自两个先前的工作:WikiNEuRal和NER4EL,分别用于银数据创建方法和细粒度类别及实体链接部分。

数据集结构

  • 数据字段:
    • tokens: 字符串列表
    • ner_tags: 分类标签列表(整数)
    • lang: 字符串,表示语言
  • 标签集: 包含31个标签,用于标识不同类型的实体。

附加信息

  • 许可证信息: 数据集内容仅限于非商业研究目的。
  • 引用信息: 使用此数据集时,请引用相关论文。
  • 贡献者: 感谢@sted97添加此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作