CATIE-AQ/frenchNER_4entities
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchNER_4entities
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个法语的开源命名实体识别(NER)数据集,包含了四种实体类型(LOC, PER, ORG, MISC)。数据集由多个现有的NER数据集(Multiconer, Multinerd, Pii-masking-200k, Wikiner)合并而成,并经过去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含328,757、24,131和31,885条数据。数据集的每一行包含tokens、ner_tags和dataset三个特征,其中tokens是文本的token序列,ner_tags是对应的NER标签(IOB格式),dataset标识了该行数据的原始来源。
该数据集是一个法语的开源命名实体识别(NER)数据集,包含了四种实体类型(LOC, PER, ORG, MISC)。数据集由多个现有的NER数据集(Multiconer, Multinerd, Pii-masking-200k, Wikiner)合并而成,并经过去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含328,757、24,131和31,885条数据。数据集的每一行包含tokens、ner_tags和dataset三个特征,其中tokens是文本的token序列,ner_tags是对应的NER标签(IOB格式),dataset标识了该行数据的原始来源。
提供机构:
CATIE-AQ
原始信息汇总
数据集概述
基本信息
- 语言: 法语
- 许可证: CC-BY-4.0
- 数据集大小: 100K<n<1M
- 任务类别: 标记分类
数据集结构
特征
- tokens: 字符串序列
- ner_tags: 整数序列
- dataset: 字符串类型
分割
- 训练集: 328,757个样本, 166,027,517.81620362字节
- 验证集: 24,131个样本, 10,651,145字节
- 测试集: 31,885个样本, 14,093,255字节
配置
- 默认配置: 包含训练、验证和测试数据文件路径
数据集详情
- 总行数: 384,773行
- 训练集: 328,757行
- 验证集: 24,131行
- 测试集: 31,885行
数据来源
- Multiconer: 16,548训练 / 857验证 / 0测试
- Multinerd: 140,880训练 / 17,610验证 / 17,695测试
- Pii-masking-200k: 61,958训练 / 0验证 / 0测试
- Wikiner: 120,682训练 / 0验证 / 13,410测试
去重和泄漏处理
- 原始数据总和:
- 训练集: 331,855行
- 验证集: 24,431行
- 测试集: 31,945行
- 处理后数据:
- 训练集: 328,757行
- 验证集: 24,131行
- 测试集: 31,885行
实体详情(清洗后)
- Multiconer:
- 训练集: O: 184,060, PER: 18,060, LOC: 7,165, ORG: 6,967, MISC: 16,033
- 验证集: O: 10,064, PER: 1,069, LOC: 389, ORG: 328, MISC: 836
- 测试集: O: 10,413, PER: 979, LOC: 387, ORG: 381, MISC: 874
- Multinerd:
- 训练集: O: 2,947,995, PER: 149,159, LOC: 105,586, ORG: 68,821, MISC: 94,510
- 验证集: O: 397,409, PER: 17,484, LOC: 13,992, ORG: 3,478, MISC: 13,557
- 测试集: O: 405,176, PER: 18,567, LOC: 14,083, ORG: 3,636, MISC: 12,710
- Pii-masking-200k:
- 训练集: O: 1,785,505, PER: 29,838, LOC: 42,154, ORG: 12,310, MISC: 619,710
- Wikiner:
- 训练集: O: 2,622,132, PER: 110,087, LOC: 131,841, ORG: 38,991, MISC: 69,241
- 验证集: O: 137,107, PER: 5,481, LOC: 7,204, ORG: 2,121, MISC: 3,828
- 测试集: O: 305,034, PER: 13,324, LOC: 15,213, ORG: 3,894, MISC: 8,176
- 总计:
- 训练集: O: 7,539,692, PER: 307,144, LOC: 286,746, ORG: 127,089, MISC: 799,494
- 验证集: O: 544,580, PER: 24,034, LOC: 21,585, ORG: 5,927, MISC: 18,221
- 测试集: O: 720,623, PER: 32,870, LOC: 29,683, ORG: 7,911, MISC: 21,760
列信息
- tokens: 包含标记
- ner_tags: 包含NER标签(IOB格式,0="O", 1="PER", 2="ORG", 3="LOC", 4="MISC")
- dataset: 标识原始数据集
分割详情
- 训练集: 包含Multiconer、Multinerd、Pii-masking-200k和Wikiner的数据
- 验证集: 包含Multiconer、Multinerd和Wikiner的数据
- 测试集: 包含Multiconer、Multinerd和Wikiner的数据



