five

iluvvatar/RuREBus

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iluvvatar/RuREBus
下载链接
链接失效反馈
官方服务:
资源简介:
RuREBus数据集是一个用于命名实体识别和关系提取的俄语数据集。该数据集包含两个子集:一个用于命名实体识别和关系提取任务的标注数据集,包含train和test两个分割;另一个是相同主题领域的大规模未标注原始文本。实体和关系分别以特定格式表示,实体格式为`<id> <type> <start> <stop> <text>`,关系格式为`<id> <type> Arg1:<arg1_id> Arg2:<arg2_id>`。
提供机构:
iluvvatar
原始信息汇总

RuREBus 数据集概述

数据集描述

RuREBus 数据集是一个俄语数据集,专门用于命名实体识别和关系抽取任务。该数据集的详细信息可在 GitHub 仓库 中找到。

数据集结构

数据集包含两个子集:

  1. 使用 load_dataset(MalakhovIlya/RuREBus) 可以下载用于命名实体识别和关系抽取任务的标注数据(DatasetDict),该子集包含“训练”和“测试”两个分割。
  2. 使用 load_dataset(MalakhovIlya/NEREL, raw_txt)[raw_txt] 可以下载一个约3GB的未标注文本的大型语料库,这些文本属于同一主题领域。

命名实体识别任务中的“实体”和关系抽取任务中的“关系”分别按照特定格式进行表示。

引用信息

若要引用此数据集,请使用以下信息:

@inproceedings{rurebus, Address = {Moscow, Russia}, Author = {Ivanin, Vitaly and Artemova, Ekaterina and Batura, Tatiana and Ivanov, Vladimir and Sarkisyan, Veronika and Tutubalina, Elena and Smurov, Ivan}, Title = {RuREBus-2020 Shared Task: Russian Relation Extraction for Business}, Booktitle = {Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”]}, Year = {2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作