iluvvatar/RuREBus
收藏Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iluvvatar/RuREBus
下载链接
链接失效反馈官方服务:
资源简介:
RuREBus数据集是一个用于命名实体识别和关系提取的俄语数据集。该数据集包含两个子集:一个用于命名实体识别和关系提取任务的标注数据集,包含train和test两个分割;另一个是相同主题领域的大规模未标注原始文本。实体和关系分别以特定格式表示,实体格式为`<id> <type> <start> <stop> <text>`,关系格式为`<id> <type> Arg1:<arg1_id> Arg2:<arg2_id>`。
提供机构:
iluvvatar
原始信息汇总
RuREBus 数据集概述
数据集描述
RuREBus 数据集是一个俄语数据集,专门用于命名实体识别和关系抽取任务。该数据集的详细信息可在 GitHub 仓库 中找到。
数据集结构
数据集包含两个子集:
- 使用
load_dataset(MalakhovIlya/RuREBus)可以下载用于命名实体识别和关系抽取任务的标注数据(DatasetDict),该子集包含“训练”和“测试”两个分割。 - 使用
load_dataset(MalakhovIlya/NEREL, raw_txt)[raw_txt]可以下载一个约3GB的未标注文本的大型语料库,这些文本属于同一主题领域。
命名实体识别任务中的“实体”和关系抽取任务中的“关系”分别按照特定格式进行表示。
引用信息
若要引用此数据集,请使用以下信息:
@inproceedings{rurebus, Address = {Moscow, Russia}, Author = {Ivanin, Vitaly and Artemova, Ekaterina and Batura, Tatiana and Ivanov, Vladimir and Sarkisyan, Veronika and Tutubalina, Elena and Smurov, Ivan}, Title = {RuREBus-2020 Shared Task: Russian Relation Extraction for Business}, Booktitle = {Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”]}, Year = {2020} }



