test_conll
收藏魔搭社区2025-12-29 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/test_conll
下载链接
链接失效反馈官方服务:
资源简介:
# conllpp命名实体识别数据集
## 数据集概述
conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标签通过人工校验进行修正。
为了保持数据集完整,该数据集同时包括了conll2003的训练集、验证集。
### 数据集简介
本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。
### 数据集的格式和结构
数据格式采用conll标准,NER数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的命名实体类型标签。一个具体case的例子如下:
```
SOCCER NN I-NP O
- : O O
JAPAN NNP I-NP B-LOC
GET VB I-VP O
LUCKY NNP I-NP O
WIN NNP I-NP O
, , O O
CHINA NNP I-NP B-LOC
IN IN I-PP O
SURPRISE DT I-NP O
DEFEAT NN I-NP O
. . O O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@article{wang2019cross,
title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations},
author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei},
journal={arXiv preprint arXiv:1909.01441},
year={2019}
}
```
# conllpp命名实体识别数据集
## 数据集概述
conllpp数据集是conll2003命名实体识别数据集的修正版本,其中测试集中5.38%的句子标注经人工校验完成修正。为保障数据集完整性,该数据集同时保留了conll2003的训练集与验证集。
### 数据集简介
本数据集涵盖训练集(14041条样本)、验证集(3250条样本)、测试集(3453条样本),实体类型包含地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。
### 数据集格式与结构
数据格式采用Conll标准,命名实体识别(NER,Named Entity Recognition)数据包含两列:第一列为输入文本的分词单元,最后一列为每个分词对应的命名实体类型标签。以下为一个具体示例:
SOCCER NN I-NP O
- : O O
JAPAN NNP I-NP B-LOC
GET VB I-VP O
LUCKY NNP I-NP O
WIN NNP I-NP O
, , O O
CHINA NNP I-NP B-LOC
IN IN I-PP O
SURPRISE DT I-NP O
DEFEAT NN I-NP O
. . O O
## 数据集版权信息
知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)
## 引用格式
bib
@article{wang2019cross,
title={CrossWeigh: Training Named Entity Tagger from Imperfect Annotations},
author={Wang, Zihan and Shang, Jingbo and Liu, Liyuan and Lu, Lihao and Liu, Jiacheng and Han, Jiawei},
journal={arXiv preprint arXiv:1909.01441},
year={2019}
}
提供机构:
maas
创建时间:
2022-11-08



