ekaterinatao/nerel_bio_ner_unnested
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ekaterinatao/nerel_bio_ner_unnested
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是NEREL-BIO的预处理版本,主要用于命名实体识别(NER)任务。数据集包含俄语文本,并标注了多种实体类别,如活动、解剖结构、化学物质、设备、疾病、发现、食物、基因、伤害、医疗活动、实验室程序、生物体、医疗程序、心理过程、物理实体、科学程序、年龄、城市、国家、日期、地区、事件、家庭、设施、位置、货币、国籍、数字、序数、组织、百分比、人物、产品、职业、州或省、时间、奖项、犯罪、意识形态、语言、法律、惩罚、宗教和艺术作品等。数据集分为训练集、验证集和测试集,分别包含612、77和77个样本。
该数据集是NEREL-BIO的预处理版本,主要用于命名实体识别(NER)任务。数据集包含俄语文本,并标注了多种实体类别,如活动、解剖结构、化学物质、设备、疾病、发现、食物、基因、伤害、医疗活动、实验室程序、生物体、医疗程序、心理过程、物理实体、科学程序、年龄、城市、国家、日期、地区、事件、家庭、设施、位置、货币、国籍、数字、序数、组织、百分比、人物、产品、职业、州或省、时间、奖项、犯罪、意识形态、语言、法律、惩罚、宗教和艺术作品等。数据集分为训练集、验证集和测试集,分别包含612、77和77个样本。
提供机构:
ekaterinatao
原始信息汇总
数据集概述
语言
- 俄语(ru)
许可证
- MIT许可证
任务类别
- 标记分类(token-classification)
数据集信息
特征
- id: 字符串类型
- words: 字符串序列
- ner_tags: 整数序列(int64)
分割
- 训练集(train)
- 字节数: 2079430
- 样本数: 612
- 验证集(valid)
- 字节数: 237125
- 样本数: 77
- 测试集(test)
- 字节数: 224036
- 样本数: 77
下载大小
- 750018字节
数据集大小
- 2540591字节
配置
- 默认配置(default)
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/valid-*
- 测试集: data/test-*
- 数据文件路径:
数据集详情
实体标签
- 0: ACTIVITY
- 1: ADMINISTRATION_ROUTE
- 2: ANATOMY
- 3: CHEM
- 4: DEVICE
- 5: DISO
- 6: FINDING
- 7: FOOD
- 8: GENE
- 9: INJURY_POISONING
- 10: HEALTH_CARE_ACTIVITY
- 11: LABPROC
- 12: LIVB
- 13: MEDPROC
- 14: MENTALPROC
- 15: PHYS
- 16: SCIPROC
- 17: AGE
- 18: CITY
- 19: COUNTRY
- 20: DATE
- 21: DISTRICT
- 22: EVENT
- 23: FAMILY
- 24: FACILITY
- 25: LOCATION
- 26: MONEY
- 27: NATIONALITY
- 28: NUMBER
- 29: ORDINAL
- 30: ORGANIZATION
- 31: PERCENT
- 32: PERSON
- 33: PRODUCT
- 34: PROFESSION
- 35: STATE_OR_PROVINCE
- 36: TIME
- 37: AWARD
- 38: CRIME
- 39: IDEOLOGY
- 40: LANGUAGE
- 41: LAW
- 42: PENALTY
- 43: RELIGION
- 44: WORK_OF_ART



