five

ekaterinatao/nerel_bio_ner_unnested

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ekaterinatao/nerel_bio_ner_unnested
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是NEREL-BIO的预处理版本,主要用于命名实体识别(NER)任务。数据集包含俄语文本,并标注了多种实体类别,如活动、解剖结构、化学物质、设备、疾病、发现、食物、基因、伤害、医疗活动、实验室程序、生物体、医疗程序、心理过程、物理实体、科学程序、年龄、城市、国家、日期、地区、事件、家庭、设施、位置、货币、国籍、数字、序数、组织、百分比、人物、产品、职业、州或省、时间、奖项、犯罪、意识形态、语言、法律、惩罚、宗教和艺术作品等。数据集分为训练集、验证集和测试集,分别包含612、77和77个样本。

该数据集是NEREL-BIO的预处理版本,主要用于命名实体识别(NER)任务。数据集包含俄语文本,并标注了多种实体类别,如活动、解剖结构、化学物质、设备、疾病、发现、食物、基因、伤害、医疗活动、实验室程序、生物体、医疗程序、心理过程、物理实体、科学程序、年龄、城市、国家、日期、地区、事件、家庭、设施、位置、货币、国籍、数字、序数、组织、百分比、人物、产品、职业、州或省、时间、奖项、犯罪、意识形态、语言、法律、惩罚、宗教和艺术作品等。数据集分为训练集、验证集和测试集,分别包含612、77和77个样本。
提供机构:
ekaterinatao
原始信息汇总

数据集概述

语言

  • 俄语(ru)

许可证

  • MIT许可证

任务类别

  • 标记分类(token-classification)

数据集信息

特征

  • id: 字符串类型
  • words: 字符串序列
  • ner_tags: 整数序列(int64)

分割

  • 训练集(train)
    • 字节数: 2079430
    • 样本数: 612
  • 验证集(valid)
    • 字节数: 237125
    • 样本数: 77
  • 测试集(test)
    • 字节数: 224036
    • 样本数: 77

下载大小

  • 750018字节

数据集大小

  • 2540591字节

配置

  • 默认配置(default)
    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/valid-*
      • 测试集: data/test-*

数据集详情

实体标签

  • 0: ACTIVITY
  • 1: ADMINISTRATION_ROUTE
  • 2: ANATOMY
  • 3: CHEM
  • 4: DEVICE
  • 5: DISO
  • 6: FINDING
  • 7: FOOD
  • 8: GENE
  • 9: INJURY_POISONING
  • 10: HEALTH_CARE_ACTIVITY
  • 11: LABPROC
  • 12: LIVB
  • 13: MEDPROC
  • 14: MENTALPROC
  • 15: PHYS
  • 16: SCIPROC
  • 17: AGE
  • 18: CITY
  • 19: COUNTRY
  • 20: DATE
  • 21: DISTRICT
  • 22: EVENT
  • 23: FAMILY
  • 24: FACILITY
  • 25: LOCATION
  • 26: MONEY
  • 27: NATIONALITY
  • 28: NUMBER
  • 29: ORDINAL
  • 30: ORGANIZATION
  • 31: PERCENT
  • 32: PERSON
  • 33: PRODUCT
  • 34: PROFESSION
  • 35: STATE_OR_PROVINCE
  • 36: TIME
  • 37: AWARD
  • 38: CRIME
  • 39: IDEOLOGY
  • 40: LANGUAGE
  • 41: LAW
  • 42: PENALTY
  • 43: RELIGION
  • 44: WORK_OF_ART
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作