WikiDiverseNER命名实体识别数据集
收藏魔搭社区2026-01-02 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/wiki_ner
下载链接
链接失效反馈官方服务:
资源简介:
# WikiDiverseNER命名实体识别数据集
## 数据集概述
WikiDiverseNER数据集是基于WikiDiverse实体链接数据集构造的NER数据集。
### 数据集简介
本数据集包括测试集(757),实体类型包括应用(APP)、书籍(Book)、建筑(Building)、国家(Country)、货币(Currency)、事件(Event)、地址(Location)、电影(Movie)、音乐(Music)、组织(Organization)、其他(Other)、人物(People)、景点(Site)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
10 O
Chris B-People
Bond I-People
, O
11 O
Ryan B-People
Scott I-People
and O
teammates O
during O
a O
time O
out O
. O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@inproceedings{wang-etal-2022-wikidiverse,
title = "{W}iki{D}iverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types",
author = "Wang, Xuwu and
Tian, Junfeng and
Gui, Min and
Li, Zhixu and
Wang, Rui and
Yan, Ming and
Chen, Lihan and
Xiao, Yanghua",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl-long.328",
doi = "10.18653/v1/2022.acl-long.328",
pages = "4785--4797",
}
```
# WikiDiverseNER命名实体识别(Named Entity Recognition, NER)数据集
## 数据集概述
WikiDiverseNER数据集依托WikiDiverse实体链接数据集构建,属于命名实体识别数据集。
### 数据集简介
本数据集包含测试集(共757条样本),涵盖的实体类型如下:应用(APP)、书籍(Book)、建筑(Building)、国家(Country)、货币(Currency)、事件(Event)、地址(Location)、电影(Movie)、音乐(Music)、组织(Organization)、其他(Other)、人物(People)、景点(Site)。
### 数据集格式与结构
本数据集遵循CoNLL标准,采用两列数据结构:第一列为输入语句的分词结果,第二列为各分词对应的命名实体类型标签。以下为一个具体示例:
10 O
Chris B-人物
Bond I-人物
, O
11 O
Ryan B-人物
Scott I-人物
and O
teammates O
during O
a O
time O
out O
. O
## 数据集版权信息
知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)。
## 引用方式
bib
@inproceedings{wang-etal-2022-wikidiverse,
title = "{W}iki{D}iverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types",
author = "Wang, Xuwu and
Tian, Junfeng and
Gui, Min and
Li, Zhixu and
Wang, Rui and
Yan, Ming and
Chen, Lihan and
Xiao, Yanghua",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl-long.328",
doi = "10.18653/v1/2022.acl-long.328",
pages = "4785--4797",
}
提供机构:
maas
创建时间:
2022-10-25
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiDiverseNER数据集是基于WikiDiverse实体链接数据集构建的命名实体识别数据集,包含测试集(757个样本)并覆盖应用、书籍、人物等13种实体类型。数据采用conll标准格式,版权遵循Creative Commons Attribution 4.0 International协议。
以上内容由遇见数据集搜集并总结生成



