RCC-MSU/collection3
收藏Hugging Face2023-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RCC-MSU/collection3
下载链接
链接失效反馈官方服务:
资源简介:
Collection3是一个用于命名实体识别(NER)的俄语数据集,标注了LOC(地点)、PER(人物)和ORG(组织)标签。该数据集基于Persons-1000集合,最初包含1000个仅标注了人物名称的新闻文档。额外的标签是使用类似于MUC-7的指南和Brat工具进行标注的。数据集包含26K个标注的命名实体(11K人物、7K地点和8K组织),并已转换为IOB2格式,分为训练集、验证集和测试集。数据集的结构包括id、tokens和ner_tags字段,数据分割为train、validation和test三部分。
Collection3 is a Russian-language dataset for named entity recognition (NER), annotated with LOC (location), PER (person), and ORG (organization) tags. This dataset is based on the Persons-1000 collection, which initially included 1,000 news documents solely annotated with person names. Additional entity tags were annotated using guidelines similar to those of MUC-7 and the Brat annotation tool. The dataset contains 26,000 annotated named entities (11,000 persons, 7,000 locations, and 8,000 organizations), and has been converted to the IOB2 format, split into training, validation, and test subsets. The dataset structure includes the fields of id, tokens, and ner_tags, with the data partitioned into three splits: train, validation, and test.
提供机构:
RCC-MSU
原始信息汇总
数据集概述
数据集名称
- 名称: Collection3
语言
- 语言: 俄语
许可
- 许可类型: 其他
多语言性
- 多语言性: 单语种
大小分类
- 大小: 10K<n<100K
任务类别
- 任务类别: 词元分类
任务ID
- 任务ID: 命名实体识别
数据集结构
-
特征:
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 分类标签序列,标签包括:
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
-
数据分割:
- 训练集: 9301个样本,4380588字节
- 验证集: 2153个样本,1020711字节
- 测试集: 1922个样本,935298字节
数据集创建
- 数据集来源: 基于Persons-1000,原始包含1000篇新闻文档,仅标注人物名称。
- 标注工具: 使用Brat进行协作文本标注。
- 当前数据集内容: 包含26K标注的命名实体,其中11K人物,7K地点,8K组织。
- 数据集转换与分割: 由DeepPavlov团队完成。
数据集使用考虑
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
-
数据集管理员: 未提供详细信息
-
许可信息: 未提供详细信息
-
引用信息:
@inproceedings{mozharova-loukachevitch-2016-two-stage-russian-ner, author={Mozharova, Valerie and Loukachevitch, Natalia}, booktitle={2016 International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT)}, title={Two-stage approach in Russian named entity recognition}, year={2016}, pages={1-6}, doi={10.1109/FRUCT.2016.7584769}}



