avramandrei/histnero
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/avramandrei/histnero
下载链接
链接失效反馈官方服务:
资源简介:
HistNERo数据集是一个历史罗马尼亚语命名实体识别数据集,包含10,026个句子(即8,020个训练集、1,003个验证集和1,003个测试集),每个句子都标注了五种命名实体:PERSON(人物)、ORGANIZATION(组织)、LOCATION(地点)、PRODUCT(产品)和DATE(日期)。数据集的每个样本包含id、ner_tags、tokens、doc_id和region等特征。数据集的任务类别是token-classification,语言是罗马尼亚语,标签包括ner、history和romanian,大小类别为10K<n<100K。
HistNERo数据集是一个历史罗马尼亚语命名实体识别数据集,包含10,026个句子(即8,020个训练集、1,003个验证集和1,003个测试集),每个句子都标注了五种命名实体:PERSON(人物)、ORGANIZATION(组织)、LOCATION(地点)、PRODUCT(产品)和DATE(日期)。数据集的每个样本包含id、ner_tags、tokens、doc_id和region等特征。数据集的任务类别是token-classification,语言是罗马尼亚语,标签包括ner、history和romanian,大小类别为10K<n<100K。
提供机构:
avramandrei
原始信息汇总
数据集概述
数据集名称
- HistNERo
数据集描述
- 包含10,026个句子,分为训练集(8,020个样本)、验证集(1,003个样本)和测试集(1,003个样本),用于历史罗马尼亚语的命名实体识别。
数据集特征
- id: 字符串类型
- ner_tags: 序列类型,包含以下类别:
- 0: O
- 1: B-PERS
- 2: I-PERS
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
- 7: B-PROD
- 8: I-PROD
- 9: B-DATE
- 10: I-DATE
- tokens: 字符串序列类型
- doc_id: 字符串类型
- region: 字符串类型
数据集划分
- 训练集: 8020个样本,大小为4446694.039497307字节
- 测试集: 1003个样本,大小为556113.9802513465字节
- 验证集: 1003个样本,大小为556113.9802513465字节
数据集大小
- 下载大小: 1458677字节
- 数据集大小: 5558922字节
任务类别
- 令牌分类
语言
- 罗马尼亚语
标签
- ner
- history
- romanian
大小类别
- 10K<n<100K



