tomaarsen/conll2002

Name: tomaarsen/conll2002
Creator: tomaarsen
Published: 2023-09-23 10:53:11
License: 暂无描述

Hugging Face2023-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tomaarsen/conll2002

下载链接

链接失效反馈

官方服务：

资源简介：

CoNLL-2002数据集是一个用于命名实体识别（NER）任务的多语言数据集，包含西班牙语（es）和荷兰语（nl）两种语言。数据集的结构包括训练集、验证集和测试集，每个样本包含id、document_id、sentence_id、tokens、pos_tags和ner_tags等字段。数据集的创建目的是为当时在统计机器学习中资源不足的荷兰语和西班牙语提供新的资源。数据集来源于新闻文章，标注过程遵循了特定的指南，并由专业的研究中心完成。

提供机构：

tomaarsen

原始信息汇总

数据集概述

基本信息

数据集名称: CoNLL-2002
语言: 西班牙语 (es) 和荷兰语 (nl)
许可证: 未知
多语言性: 多语言
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别:
- 命名实体识别 (named-entity-recognition)
- 词性标注 (part-of-speech)
PapersWithCode ID: conll-2002

配置信息

配置名称: es (西班牙语) 和 nl (荷兰语)

西班牙语配置 (es)

特征:
- id: 字符串类型
- document_id: 32位整数类型
- sentence_id: 32位整数类型
- tokens: 字符串序列
- pos_tags: 词性标签序列
- ner_tags: 命名实体标签序列
分割:
- train: 8323个样本, 6738717字节
- validation: 1915个样本, 1349064字节
- test: 1517个样本, 1306252字节
下载大小: 4140690字节
数据集大小: 9394033字节

荷兰语配置 (nl)

特征:
- id: 字符串类型
- document_id: 32位整数类型
- sentence_id: 32位整数类型
- tokens: 字符串序列
- pos_tags: 词性标签序列
- ner_tags: 命名实体标签序列
分割:
- train: 15806个样本, 5435346字节
- validation: 2895个样本, 1017418字节
- test: 5195个样本, 1850382字节
下载大小: 3642241字节
数据集大小: 8303146字节

数据字段

id: 样本ID
document_id: 文档ID
sentence_id: 句子ID
tokens: 词汇序列
ner_tags: 命名实体标签序列
pos_tags: 词性标签序列

词性标签 (POS Tags)

西班牙语:
- AO, AQ, CC, CS, DA, DE, DD, DI, DN, DP, DT, Faa, Fat, Fc, Fd, Fe, Fg, Fh, Fia, Fit, Fp, Fpa, Fpt, Fs, Ft, Fx, Fz, I, NC, NP, P0, PD, PI, PN, PP, PR, PT, PX, RG, RN, SP, VAI, VAM, VAN, VAP, VAS, VMG, VMI, VMM, VMN, VMP, VMS, VSG, VSI, VSM, VSN, VSP, VSS, Y, Z
荷兰语:
- Adj, Adv, Art, Conj, Int, Misc, N, Num, Prep, Pron, Punc, V