five

avramandrei/histnero

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/avramandrei/histnero
下载链接
链接失效反馈
官方服务:
资源简介:
HistNERo数据集是一个历史罗马尼亚语命名实体识别数据集,包含10,026个句子(即8,020个训练集、1,003个验证集和1,003个测试集),每个句子都标注了五种命名实体:PERSON(人物)、ORGANIZATION(组织)、LOCATION(地点)、PRODUCT(产品)和DATE(日期)。数据集的每个样本包含id、ner_tags、tokens、doc_id和region等特征。数据集的任务类别是token-classification,语言是罗马尼亚语,标签包括ner、history和romanian,大小类别为10K<n<100K。

HistNERo数据集是一个历史罗马尼亚语命名实体识别数据集,包含10,026个句子(即8,020个训练集、1,003个验证集和1,003个测试集),每个句子都标注了五种命名实体:PERSON(人物)、ORGANIZATION(组织)、LOCATION(地点)、PRODUCT(产品)和DATE(日期)。数据集的每个样本包含id、ner_tags、tokens、doc_id和region等特征。数据集的任务类别是token-classification,语言是罗马尼亚语,标签包括ner、history和romanian,大小类别为10K<n<100K。
提供机构:
avramandrei
原始信息汇总

数据集概述

数据集名称

  • HistNERo

数据集描述

  • 包含10,026个句子,分为训练集(8,020个样本)、验证集(1,003个样本)和测试集(1,003个样本),用于历史罗马尼亚语的命名实体识别。

数据集特征

  • id: 字符串类型
  • ner_tags: 序列类型,包含以下类别:
    • 0: O
    • 1: B-PERS
    • 2: I-PERS
    • 3: B-ORG
    • 4: I-ORG
    • 5: B-LOC
    • 6: I-LOC
    • 7: B-PROD
    • 8: I-PROD
    • 9: B-DATE
    • 10: I-DATE
  • tokens: 字符串序列类型
  • doc_id: 字符串类型
  • region: 字符串类型

数据集划分

  • 训练集: 8020个样本,大小为4446694.039497307字节
  • 测试集: 1003个样本,大小为556113.9802513465字节
  • 验证集: 1003个样本,大小为556113.9802513465字节

数据集大小

  • 下载大小: 1458677字节
  • 数据集大小: 5558922字节

任务类别

  • 令牌分类

语言

  • 罗马尼亚语

标签

  • ner
  • history
  • romanian

大小类别

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作