tomaarsen/conll2002
收藏Hugging Face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomaarsen/conll2002
下载链接
链接失效反馈官方服务:
资源简介:
CoNLL-2002数据集是一个用于命名实体识别(NER)任务的多语言数据集,包含西班牙语(es)和荷兰语(nl)两种语言。数据集的结构包括训练集、验证集和测试集,每个样本包含id、document_id、sentence_id、tokens、pos_tags和ner_tags等字段。数据集的创建目的是为当时在统计机器学习中资源不足的荷兰语和西班牙语提供新的资源。数据集来源于新闻文章,标注过程遵循了特定的指南,并由专业的研究中心完成。
提供机构:
tomaarsen
原始信息汇总
数据集概述
基本信息
- 数据集名称: CoNLL-2002
- 语言: 西班牙语 (es) 和 荷兰语 (nl)
- 许可证: 未知
- 多语言性: 多语言
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别:
- 命名实体识别 (named-entity-recognition)
- 词性标注 (part-of-speech)
- PapersWithCode ID: conll-2002
配置信息
- 配置名称: es (西班牙语) 和 nl (荷兰语)
西班牙语配置 (es)
- 特征:
id: 字符串类型document_id: 32位整数类型sentence_id: 32位整数类型tokens: 字符串序列pos_tags: 词性标签序列ner_tags: 命名实体标签序列
- 分割:
train: 8323个样本, 6738717字节validation: 1915个样本, 1349064字节test: 1517个样本, 1306252字节
- 下载大小: 4140690字节
- 数据集大小: 9394033字节
荷兰语配置 (nl)
- 特征:
id: 字符串类型document_id: 32位整数类型sentence_id: 32位整数类型tokens: 字符串序列pos_tags: 词性标签序列ner_tags: 命名实体标签序列
- 分割:
train: 15806个样本, 5435346字节validation: 2895个样本, 1017418字节test: 5195个样本, 1850382字节
- 下载大小: 3642241字节
- 数据集大小: 8303146字节
数据字段
id: 样本IDdocument_id: 文档IDsentence_id: 句子IDtokens: 词汇序列ner_tags: 命名实体标签序列pos_tags: 词性标签序列
词性标签 (POS Tags)
- 西班牙语:
- AO, AQ, CC, CS, DA, DE, DD, DI, DN, DP, DT, Faa, Fat, Fc, Fd, Fe, Fg, Fh, Fia, Fit, Fp, Fpa, Fpt, Fs, Ft, Fx, Fz, I, NC, NP, P0, PD, PI, PN, PP, PR, PT, PX, RG, RN, SP, VAI, VAM, VAN, VAP, VAS, VMG, VMI, VMM, VMN, VMP, VMS, VSG, VSI, VSM, VSN, VSP, VSS, Y, Z
- 荷兰语:
- Adj, Adv, Art, Conj, Int, Misc, N, Num, Prep, Pron, Punc, V
命名实体标签 (NER Tags)
- "O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"
数据分割
- 西班牙语:
train: 8324个样本validation: 1916个样本test: 1518个样本
- 荷兰语:
train: 15807个样本validation: 2896个样本test: 5196个样本
搜集汇总
数据集介绍

背景与挑战
背景概述
CoNLL-2002数据集是一个用于命名实体识别和词性标注的多语言数据集,包含西班牙语和荷兰语的新闻文本,总规模约35,651行。数据集提供了训练、验证和测试分割,支持语言无关的机器学习研究,特别适用于资源较少的语言处理任务。
以上内容由遇见数据集搜集并总结生成



