Babelscape/multinerd
收藏Hugging Face2023-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/multinerd
下载链接
链接失效反馈官方服务:
资源简介:
MultiNERD数据集是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别(NER)和实体消歧注释。该数据集覆盖10种语言(中文、荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语和西班牙语),15个NER类别(人物、地点、组织、动物、生物实体、天体、疾病、事件、食物、仪器、媒体、植物、神话实体、时间和交通工具),以及2种文本类型(维基百科和维基新闻)。数据集结构包括tokens、ner_tags和lang字段,并提供了完整的标签集。
MultiNERD数据集是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别(NER)和实体消歧注释。该数据集覆盖10种语言(中文、荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语和西班牙语),15个NER类别(人物、地点、组织、动物、生物实体、天体、疾病、事件、食物、仪器、媒体、植物、神话实体、时间和交通工具),以及2种文本类型(维基百科和维基新闻)。数据集结构包括tokens、ner_tags和lang字段,并提供了完整的标签集。
提供机构:
Babelscape
原始信息汇总
数据集概述
基本信息
- 名称: MultiNERD-dataset
- 语言: 包含10种语言,包括中文(zh)、荷兰语(nl)、英语(en)、法语(fr)、德语(de)、意大利语(it)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、西班牙语(es)
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
- 多语言性: 多语言
- 数据来源: 原始数据
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 标签: 结构预测
数据集描述
- 摘要: MultiNERD是首个语言无关的方法,用于自动创建多语言、多类型和细粒度的命名实体识别和实体消歧注释。该数据集覆盖10种语言、15个NER类别和2种文本类型。
- 详细描述: 数据集扩展自两个先前的工作:WikiNEuRal和NER4EL,分别用于银数据创建方法和细粒度类别及实体链接部分。
数据集结构
- 数据字段:
tokens: 字符串列表ner_tags: 分类标签列表(整数)lang: 字符串,表示语言
- 标签集: 包含31个标签,用于标识不同类型的实体。
附加信息
- 许可证信息: 数据集内容仅限于非商业研究目的。
- 引用信息: 使用此数据集时,请引用相关论文。
- 贡献者: 感谢@sted97添加此数据集。



