five

tomaarsen/conll2002

收藏
Hugging Face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomaarsen/conll2002
下载链接
链接失效反馈
官方服务:
资源简介:
CoNLL-2002数据集是一个用于命名实体识别(NER)任务的多语言数据集,包含西班牙语(es)和荷兰语(nl)两种语言。数据集的结构包括训练集、验证集和测试集,每个样本包含id、document_id、sentence_id、tokens、pos_tags和ner_tags等字段。数据集的创建目的是为当时在统计机器学习中资源不足的荷兰语和西班牙语提供新的资源。数据集来源于新闻文章,标注过程遵循了特定的指南,并由专业的研究中心完成。
提供机构:
tomaarsen
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CoNLL-2002
  • 语言: 西班牙语 (es) 和 荷兰语 (nl)
  • 许可证: 未知
  • 多语言性: 多语言
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别:
    • 命名实体识别 (named-entity-recognition)
    • 词性标注 (part-of-speech)
  • PapersWithCode ID: conll-2002

配置信息

  • 配置名称: es (西班牙语) 和 nl (荷兰语)

西班牙语配置 (es)

  • 特征:
    • id: 字符串类型
    • document_id: 32位整数类型
    • sentence_id: 32位整数类型
    • tokens: 字符串序列
    • pos_tags: 词性标签序列
    • ner_tags: 命名实体标签序列
  • 分割:
    • train: 8323个样本, 6738717字节
    • validation: 1915个样本, 1349064字节
    • test: 1517个样本, 1306252字节
  • 下载大小: 4140690字节
  • 数据集大小: 9394033字节

荷兰语配置 (nl)

  • 特征:
    • id: 字符串类型
    • document_id: 32位整数类型
    • sentence_id: 32位整数类型
    • tokens: 字符串序列
    • pos_tags: 词性标签序列
    • ner_tags: 命名实体标签序列
  • 分割:
    • train: 15806个样本, 5435346字节
    • validation: 2895个样本, 1017418字节
    • test: 5195个样本, 1850382字节
  • 下载大小: 3642241字节
  • 数据集大小: 8303146字节

数据字段

  • id: 样本ID
  • document_id: 文档ID
  • sentence_id: 句子ID
  • tokens: 词汇序列
  • ner_tags: 命名实体标签序列
  • pos_tags: 词性标签序列

词性标签 (POS Tags)

  • 西班牙语:
    • AO, AQ, CC, CS, DA, DE, DD, DI, DN, DP, DT, Faa, Fat, Fc, Fd, Fe, Fg, Fh, Fia, Fit, Fp, Fpa, Fpt, Fs, Ft, Fx, Fz, I, NC, NP, P0, PD, PI, PN, PP, PR, PT, PX, RG, RN, SP, VAI, VAM, VAN, VAP, VAS, VMG, VMI, VMM, VMN, VMP, VMS, VSG, VSI, VSM, VSN, VSP, VSS, Y, Z
  • 荷兰语:
    • Adj, Adv, Art, Conj, Int, Misc, N, Num, Prep, Pron, Punc, V

命名实体标签 (NER Tags)

  • "O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"

数据分割

  • 西班牙语:
    • train: 8324个样本
    • validation: 1916个样本
    • test: 1518个样本
  • 荷兰语:
    • train: 15807个样本
    • validation: 2896个样本
    • test: 5196个样本
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CoNLL-2002数据集是一个用于命名实体识别和词性标注的多语言数据集,包含西班牙语和荷兰语的新闻文本,总规模约35,651行。数据集提供了训练、验证和测试分割,支持语言无关的机器学习研究,特别适用于资源较少的语言处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作