five

CATIE-AQ/frenchNER_4entities

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchNER_4entities
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个法语的开源命名实体识别(NER)数据集,包含了四种实体类型(LOC, PER, ORG, MISC)。数据集由多个现有的NER数据集(Multiconer, Multinerd, Pii-masking-200k, Wikiner)合并而成,并经过去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含328,757、24,131和31,885条数据。数据集的每一行包含tokens、ner_tags和dataset三个特征,其中tokens是文本的token序列,ner_tags是对应的NER标签(IOB格式),dataset标识了该行数据的原始来源。

该数据集是一个法语的开源命名实体识别(NER)数据集,包含了四种实体类型(LOC, PER, ORG, MISC)。数据集由多个现有的NER数据集(Multiconer, Multinerd, Pii-masking-200k, Wikiner)合并而成,并经过去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含328,757、24,131和31,885条数据。数据集的每一行包含tokens、ner_tags和dataset三个特征,其中tokens是文本的token序列,ner_tags是对应的NER标签(IOB格式),dataset标识了该行数据的原始来源。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 语言: 法语
  • 许可证: CC-BY-4.0
  • 数据集大小: 100K<n<1M
  • 任务类别: 标记分类

数据集结构

特征

  • tokens: 字符串序列
  • ner_tags: 整数序列
  • dataset: 字符串类型

分割

  • 训练集: 328,757个样本, 166,027,517.81620362字节
  • 验证集: 24,131个样本, 10,651,145字节
  • 测试集: 31,885个样本, 14,093,255字节

配置

  • 默认配置: 包含训练、验证和测试数据文件路径

数据集详情

  • 总行数: 384,773行
    • 训练集: 328,757行
    • 验证集: 24,131行
    • 测试集: 31,885行

数据来源

  • Multiconer: 16,548训练 / 857验证 / 0测试
  • Multinerd: 140,880训练 / 17,610验证 / 17,695测试
  • Pii-masking-200k: 61,958训练 / 0验证 / 0测试
  • Wikiner: 120,682训练 / 0验证 / 13,410测试

去重和泄漏处理

  • 原始数据总和:
    • 训练集: 331,855行
    • 验证集: 24,431行
    • 测试集: 31,945行
  • 处理后数据:
    • 训练集: 328,757行
    • 验证集: 24,131行
    • 测试集: 31,885行

实体详情(清洗后)

  • Multiconer:
    • 训练集: O: 184,060, PER: 18,060, LOC: 7,165, ORG: 6,967, MISC: 16,033
    • 验证集: O: 10,064, PER: 1,069, LOC: 389, ORG: 328, MISC: 836
    • 测试集: O: 10,413, PER: 979, LOC: 387, ORG: 381, MISC: 874
  • Multinerd:
    • 训练集: O: 2,947,995, PER: 149,159, LOC: 105,586, ORG: 68,821, MISC: 94,510
    • 验证集: O: 397,409, PER: 17,484, LOC: 13,992, ORG: 3,478, MISC: 13,557
    • 测试集: O: 405,176, PER: 18,567, LOC: 14,083, ORG: 3,636, MISC: 12,710
  • Pii-masking-200k:
    • 训练集: O: 1,785,505, PER: 29,838, LOC: 42,154, ORG: 12,310, MISC: 619,710
  • Wikiner:
    • 训练集: O: 2,622,132, PER: 110,087, LOC: 131,841, ORG: 38,991, MISC: 69,241
    • 验证集: O: 137,107, PER: 5,481, LOC: 7,204, ORG: 2,121, MISC: 3,828
    • 测试集: O: 305,034, PER: 13,324, LOC: 15,213, ORG: 3,894, MISC: 8,176
  • 总计:
    • 训练集: O: 7,539,692, PER: 307,144, LOC: 286,746, ORG: 127,089, MISC: 799,494
    • 验证集: O: 544,580, PER: 24,034, LOC: 21,585, ORG: 5,927, MISC: 18,221
    • 测试集: O: 720,623, PER: 32,870, LOC: 29,683, ORG: 7,911, MISC: 21,760

列信息

  • tokens: 包含标记
  • ner_tags: 包含NER标签(IOB格式,0="O", 1="PER", 2="ORG", 3="LOC", 4="MISC")
  • dataset: 标识原始数据集

分割详情

  • 训练集: 包含Multiconer、Multinerd、Pii-masking-200k和Wikiner的数据
  • 验证集: 包含Multiconer、Multinerd和Wikiner的数据
  • 测试集: 包含Multiconer、Multinerd和Wikiner的数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作