CATIE-AQ/frenchNER_3entities
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/frenchNER_3entities
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个法语命名实体识别(NER)数据集,包含三个实体类别(LOC, PER, ORG)。数据集由多个公开的NER数据集合并而成,并进行了去重和泄漏处理。数据集分为训练集、验证集和测试集,分别包含346,071、32,951和41,242行数据。数据集的特征包括tokens、ner_tags和dataset,分别表示文本标记、NER标签和数据来源。数据集的创建过程和方法在博客中有详细描述。
提供机构:
CATIE-AQ
原始信息汇总
数据集信息
数据集名称: frenchNER_3entities
数据集描述: 该数据集是法语命名实体识别(NER)数据集的合并版本,包含三个实体类型(LOC, PER, ORG)。
总行数: 420,264
训练集行数: 346,071
验证集行数: 32,951
测试集行数: 41,242
数据集配置
- 默认配置:
- 测试集路径: data/test-*
- 训练集路径: data/train-*
- 验证集路径: data/validation-*
数据集特征
- tokens: 字符串序列
- ner_tags: 整数序列
- dataset: 字符串类型
数据集分割
- 测试集: 42,144个样本,16,147,720字节
- 训练集: 349,195个样本,161,576,681字节
- 验证集: 33,464个样本,12,398,792字节
数据集大小
- 下载大小: 43,074,463字节
- 数据集大小: 190,123,193字节
任务类别
- token-classification
语言
- 法语
数据集来源
- Multiconer
- 训练集: 16,548个样本
- 验证集: 857个样本
- 测试集: 0个样本(使用原始验证集作为测试集)
- Multinerd
- 训练集: 140,880个样本
- 验证集: 17,610个样本
- 测试集: 17,695个样本
- Pii-masking-200k
- 训练集: 61,958个样本
- 验证集: 0个样本
- 测试集: 0个样本
- Wikiann
- 训练集: 20,000个样本
- 验证集: 10,000个样本
- 测试集: 10,000个样本
- Wikiner
- 训练集: 120,682个样本
- 验证集: 0个样本
- 测试集: 13,410个样本(使用5%的训练集作为验证集)
数据集清理
- 清理前:
- 训练集: 351,855个样本
- 验证集: 34,431个样本
- 测试集: 41,945个样本
- 清理后:
- 训练集: 346,071个样本
- 验证集: 32,951个样本
- 测试集: 41,242个样本
实体类型详情(清理后)
- Multiconer
- 训练集: O: 200,093, PER: 18,060, LOC: 7,165, ORG: 6,967
- 验证集: O: 10,900, PER: 1,069, LOC: 389, ORG: 328
- 测试集: O: 11,287, PER: 979, LOC: 387, ORG: 381
- Multinerd
- 训练集: O: 3,041,998, PER: 149,128, LOC: 105,531, ORG: 68,796
- 验证集: O: 410,934, PER: 17,479, LOC: 13,988, ORG: 3,475
- 测试集: O: 417,886, PER: 18,567, LOC: 14,083, ORG: 3,636
- Pii-masking-200k
- 训练集: O: 2,405,215, PER: 29,838, LOC: 42,154, ORG: 12,310
- Wikiann
- 训练集: O: 60,165, PER: 20,288, LOC: 17,033, ORG: 24,429
- 验证集: O: 30,046, PER: 10,098, LOC: 8,698, ORG: 12,819
- 测试集: O: 31,488, PER: 10,764, LOC: 9,512, ORG: 13,480
- Wikiner
- 训练集: O: 2,691,294, PER: 110,079, LOC: 131,839, ORG: 38,988
- 验证集: O: 140,935, PER: 5,481, LOC: 7,204, ORG: 2,121
- 测试集: O: 313,210, PER: 13,324, LOC: 15,213, ORG: 3,894
- 总计:
- 训练集: O: 8,398,765, PER: 327,393, LOC: 303,722, ORG: 151,490
- 验证集: O: 592,815, PER: 34,127, LOC: 30,279, ORG: 18,743
- 测试集: O: 773,871, PER: 43,634, LOC: 39,195, ORG: 21,391
数据集列
- tokens: 包含分词
- ner_tags: 包含NER标签(IOB格式,0="O", 1="PER", 2="ORG", 3="LOC")
- dataset: 标识原始数据集(可用于过滤)
数据集分割
- 训练集: 包含multiconer + multinerd + pii-masking-200k + wikiann + wikiner
- 验证集: 包含multiconer + multinerd + wikiann + wikiner
- 测试集: 包含multiconer + multinerd + wikiann + wikiner
许可证
- cc-by-4.0



