five

aashsach/multiconer2

收藏
Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aashsach/multiconer2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言命名实体识别(NER)数据集,包含多种语言的配置(如bn、de、en、es、fa、fr、hi、it、pt等)。每个配置包含id、tokens和ner_tags三个特征,其中ner_tags特征是一个序列,包含了多个类别的命名实体标签,如航空航天制造商、解剖结构、艺术作品、艺术家、运动员等。每个配置还提供了训练集和验证集的划分,并详细列出了每个划分的字节数和示例数。

该数据集是一个多语言命名实体识别(NER)数据集,包含多种语言的配置(如bn、de、en、es、fa、fr、hi、it、pt等)。每个配置包含id、tokens和ner_tags三个特征,其中ner_tags特征是一个序列,包含了多个类别的命名实体标签,如航空航天制造商、解剖结构、艺术作品、艺术家、运动员等。每个配置还提供了训练集和验证集的划分,并详细列出了每个划分的字节数和示例数。
提供机构:
aashsach
原始信息汇总

数据集概述

数据集配置

  • config_name: 数据集配置名称,包括 bn, de, en, es, fa, fr, hi, it, pt

数据集特征

  • id: 字符串类型,用于标识每个样本。
  • tokens: 序列类型,字符串,表示文本中的单词或符号序列。
  • ner_tags: 序列类型,包含实体标签,用于命名实体识别。标签包括多种实体类别,如 B-AerospaceManufacturer, I-AerospaceManufacturer 等。

数据集分割

  • train: 训练集,包含不同语言的数据大小和样本数量。
  • validation: 验证集,包含不同语言的数据大小和样本数量。

数据集大小

  • download_size: 下载大小,不同语言的数据集下载所需空间。
  • dataset_size: 数据集总大小,包括训练和验证集。

各语言数据集详细信息

bn

  • 训练集: 3844480字节, 9708样本
  • 验证集: 199756字节, 507样本
  • 下载大小: 4017205字节
  • 数据集大小: 4044236字节

de

  • 训练集: 2724923字节, 9785样本
  • 验证集: 137726字节, 512样本
  • 下载大小: 2831813字节
  • 数据集大小: 2862649字节

en

  • 训练集: 4448839字节, 16778样本
  • 验证集: 232735字节, 871样本
  • 下载大小: 4575462字节
  • 数据集大小: 4681574字节

es

  • 训练集: 4643093字节, 16453样本
  • 验证集: 237306字节, 854样本
  • 下载大小: 4659064字节
  • 数据集大小: 4880399字节

fa

  • 训练集: 5861165字节, 16321样本
  • 验证集: 316929字节, 855样本
  • 下载大小: 5760501字节
  • 数据集大小: 6178094字节

fr

  • 训练集: 4375159字节, 16548样本
  • 验证集: 229499字节, 857样本
  • 下载大小: 4492163字节
  • 数据集大小: 4604658字节

hi

  • 训练集: 4039051字节, 9632样本
  • 验证集: 217741字节, 514样本
  • 下载大小: 4060184字节
  • 数据集大小: 4256792字节

it

  • 训练集: 4256854字节, 16579样本
  • 验证集: 219489字节, 858样本
  • 下载大小: 4454712字节
  • 数据集大小: 4476343字节

pt

  • 训练集: 数据未完整提供,无法总结。
  • 验证集: 数据未完整提供,无法总结。
  • 下载大小: 数据未完整提供,无法总结。
  • 数据集大小: 数据未完整提供,无法总结。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作