aashsach/multiconer2
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aashsach/multiconer2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言命名实体识别(NER)数据集,包含多种语言的配置(如bn、de、en、es、fa、fr、hi、it、pt等)。每个配置包含id、tokens和ner_tags三个特征,其中ner_tags特征是一个序列,包含了多个类别的命名实体标签,如航空航天制造商、解剖结构、艺术作品、艺术家、运动员等。每个配置还提供了训练集和验证集的划分,并详细列出了每个划分的字节数和示例数。
该数据集是一个多语言命名实体识别(NER)数据集,包含多种语言的配置(如bn、de、en、es、fa、fr、hi、it、pt等)。每个配置包含id、tokens和ner_tags三个特征,其中ner_tags特征是一个序列,包含了多个类别的命名实体标签,如航空航天制造商、解剖结构、艺术作品、艺术家、运动员等。每个配置还提供了训练集和验证集的划分,并详细列出了每个划分的字节数和示例数。
提供机构:
aashsach
原始信息汇总
数据集概述
数据集配置
- config_name: 数据集配置名称,包括
bn,de,en,es,fa,fr,hi,it,pt。
数据集特征
- id: 字符串类型,用于标识每个样本。
- tokens: 序列类型,字符串,表示文本中的单词或符号序列。
- ner_tags: 序列类型,包含实体标签,用于命名实体识别。标签包括多种实体类别,如
B-AerospaceManufacturer,I-AerospaceManufacturer等。
数据集分割
- train: 训练集,包含不同语言的数据大小和样本数量。
- validation: 验证集,包含不同语言的数据大小和样本数量。
数据集大小
- download_size: 下载大小,不同语言的数据集下载所需空间。
- dataset_size: 数据集总大小,包括训练和验证集。
各语言数据集详细信息
bn
- 训练集: 3844480字节, 9708样本
- 验证集: 199756字节, 507样本
- 下载大小: 4017205字节
- 数据集大小: 4044236字节
de
- 训练集: 2724923字节, 9785样本
- 验证集: 137726字节, 512样本
- 下载大小: 2831813字节
- 数据集大小: 2862649字节
en
- 训练集: 4448839字节, 16778样本
- 验证集: 232735字节, 871样本
- 下载大小: 4575462字节
- 数据集大小: 4681574字节
es
- 训练集: 4643093字节, 16453样本
- 验证集: 237306字节, 854样本
- 下载大小: 4659064字节
- 数据集大小: 4880399字节
fa
- 训练集: 5861165字节, 16321样本
- 验证集: 316929字节, 855样本
- 下载大小: 5760501字节
- 数据集大小: 6178094字节
fr
- 训练集: 4375159字节, 16548样本
- 验证集: 229499字节, 857样本
- 下载大小: 4492163字节
- 数据集大小: 4604658字节
hi
- 训练集: 4039051字节, 9632样本
- 验证集: 217741字节, 514样本
- 下载大小: 4060184字节
- 数据集大小: 4256792字节
it
- 训练集: 4256854字节, 16579样本
- 验证集: 219489字节, 858样本
- 下载大小: 4454712字节
- 数据集大小: 4476343字节
pt
- 训练集: 数据未完整提供,无法总结。
- 验证集: 数据未完整提供,无法总结。
- 下载大小: 数据未完整提供,无法总结。
- 数据集大小: 数据未完整提供,无法总结。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



