five

CATIE-AQ/frenchNER_3entities

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchNER_3entities
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个法语命名实体识别(NER)数据集,包含三个实体类别(LOC, PER, ORG)。数据集由多个公开的NER数据集合并而成,并进行了去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含346,071、32,951和41,242行数据。数据集的特征包括tokens、ner_tags和dataset,分别表示文本标记、NER标签和数据来源。数据集的创建过程和方法在博客中有详细描述。
提供机构:
CATIE-AQ
原始信息汇总

数据集信息

数据集名称: frenchNER_3entities
数据集描述: 该数据集是法语命名实体识别(NER)数据集的合并版本,包含三个实体类型(LOC, PER, ORG)。
总行数: 420,264
训练集行数: 346,071
验证集行数: 32,951
测试集行数: 41,242

数据集配置

  • 默认配置:
    • 测试集路径: data/test-*
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*

数据集特征

  • tokens: 字符串序列
  • ner_tags: 整数序列
  • dataset: 字符串类型

数据集分割

  • 测试集: 42,144个样本,16,147,720字节
  • 训练集: 349,195个样本,161,576,681字节
  • 验证集: 33,464个样本,12,398,792字节

数据集大小

  • 下载大小: 43,074,463字节
  • 数据集大小: 190,123,193字节

任务类别

  • token-classification

语言

  • 法语

数据集来源

  • Multiconer
    • 训练集: 16,548个样本
    • 验证集: 857个样本
    • 测试集: 0个样本(使用原始验证集作为测试集)
  • Multinerd
    • 训练集: 140,880个样本
    • 验证集: 17,610个样本
    • 测试集: 17,695个样本
  • Pii-masking-200k
    • 训练集: 61,958个样本
    • 验证集: 0个样本
    • 测试集: 0个样本
  • Wikiann
    • 训练集: 20,000个样本
    • 验证集: 10,000个样本
    • 测试集: 10,000个样本
  • Wikiner
    • 训练集: 120,682个样本
    • 验证集: 0个样本
    • 测试集: 13,410个样本(使用5%的训练集作为验证集)

数据集清理

  • 清理前:
    • 训练集: 351,855个样本
    • 验证集: 34,431个样本
    • 测试集: 41,945个样本
  • 清理后:
    • 训练集: 346,071个样本
    • 验证集: 32,951个样本
    • 测试集: 41,242个样本

实体类型详情(清理后)

  • Multiconer
    • 训练集: O: 200,093, PER: 18,060, LOC: 7,165, ORG: 6,967
    • 验证集: O: 10,900, PER: 1,069, LOC: 389, ORG: 328
    • 测试集: O: 11,287, PER: 979, LOC: 387, ORG: 381
  • Multinerd
    • 训练集: O: 3,041,998, PER: 149,128, LOC: 105,531, ORG: 68,796
    • 验证集: O: 410,934, PER: 17,479, LOC: 13,988, ORG: 3,475
    • 测试集: O: 417,886, PER: 18,567, LOC: 14,083, ORG: 3,636
  • Pii-masking-200k
    • 训练集: O: 2,405,215, PER: 29,838, LOC: 42,154, ORG: 12,310
  • Wikiann
    • 训练集: O: 60,165, PER: 20,288, LOC: 17,033, ORG: 24,429
    • 验证集: O: 30,046, PER: 10,098, LOC: 8,698, ORG: 12,819
    • 测试集: O: 31,488, PER: 10,764, LOC: 9,512, ORG: 13,480
  • Wikiner
    • 训练集: O: 2,691,294, PER: 110,079, LOC: 131,839, ORG: 38,988
    • 验证集: O: 140,935, PER: 5,481, LOC: 7,204, ORG: 2,121
    • 测试集: O: 313,210, PER: 13,324, LOC: 15,213, ORG: 3,894
  • 总计:
    • 训练集: O: 8,398,765, PER: 327,393, LOC: 303,722, ORG: 151,490
    • 验证集: O: 592,815, PER: 34,127, LOC: 30,279, ORG: 18,743
    • 测试集: O: 773,871, PER: 43,634, LOC: 39,195, ORG: 21,391

数据集列

  • tokens: 包含分词
  • ner_tags: 包含NER标签(IOB格式,0="O", 1="PER", 2="ORG", 3="LOC")
  • dataset: 标识原始数据集(可用于过滤)

数据集分割

  • 训练集: 包含multiconer + multinerd + pii-masking-200k + wikiann + wikiner
  • 验证集: 包含multiconer + multinerd + wikiann + wikiner
  • 测试集: 包含multiconer + multinerd + wikiann + wikiner

许可证

  • cc-by-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作