five

d0rj/RuBQ_2.0

收藏
Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/RuBQ_2.0
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: test path: data/test-* - split: dev path: data/dev-* dataset_info: features: - name: uid dtype: int64 - name: question_text dtype: string - name: query dtype: string - name: answer_text dtype: string - name: question_uris sequence: string - name: question_props sequence: string - name: answers list: - name: datatype dtype: string - name: label dtype: string - name: type dtype: string - name: value dtype: string - name: wd_names struct: - name: en sequence: string - name: ru sequence: string - name: wp_names sequence: string - name: xml:lang dtype: string - name: paragraphs_uids struct: - name: all_related sequence: int64 - name: with_answer sequence: int64 - name: tags sequence: string - name: RuBQ_version dtype: string - name: question_eng dtype: string splits: - name: test num_bytes: 1992076 num_examples: 2330 - name: dev num_bytes: 488914 num_examples: 580 download_size: 0 dataset_size: 2480990 license: cc-by-sa-4.0 task_categories: - question-answering language: - ru - en tags: - qa - machine reading source_datasets: - original pretty_name: RuBQ 2.0 size_categories: - 1K<n<10K paperswithcode_id: rubq --- # RuBQ 2.0 ## Dataset Description - **Repository:** https://github.com/vladislavneon/RuBQ/tree/master/RuBQ_2.0 - **Paper:** [RuBQ: A Russian Dataset for Question Answering over Wikidata](https://arxiv.org/abs/2005.10659) For training data see [d0rj/RuBQ_2.0-paragraphs](https://huggingface.co/datasets/d0rj/RuBQ_2.0-paragraphs).
提供机构:
d0rj
原始信息汇总

RuBQ 2.0 数据集概述

数据集描述

特征信息

  • uid: 数据类型为 int64。
  • question_text: 数据类型为 string。
  • query: 数据类型为 string。
  • answer_text: 数据类型为 string。
  • question_uris: 数据类型为 sequence of string。
  • question_props: 数据类型为 sequence of string。
  • answers: 数据类型为 list,包含以下子特征:
    • datatype: 数据类型为 string。
    • label: 数据类型为 string。
    • type: 数据类型为 string。
    • value: 数据类型为 string。
    • wd_names: 数据类型为 struct,包含以下子特征:
      • en: 数据类型为 sequence of string。
      • ru: 数据类型为 sequence of string。
    • wp_names: 数据类型为 sequence of string。
    • xml:lang: 数据类型为 string。
  • paragraphs_uids: 数据类型为 struct,包含以下子特征:
    • all_related: 数据类型为 sequence of int64。
    • with_answer: 数据类型为 sequence of int64。
  • tags: 数据类型为 sequence of string。
  • RuBQ_version: 数据类型为 string。
  • question_eng: 数据类型为 string。

数据分割

  • test: 包含 2330 个样本,总字节数为 1992076。
  • dev: 包含 580 个样本,总字节数为 488914。

数据集大小

  • 下载大小: 0 字节。
  • 数据集大小: 2480990 字节。

许可

  • 数据集遵循 cc-by-sa-4.0 许可。

任务类别

  • 问题回答 (question-answering)

语言

  • 俄语 (ru)
  • 英语 (en)

标签

  • qa
  • machine reading

数据源

  • 原始数据 (original)

数据集名称

  • RuBQ 2.0

数据集规模

  • 1K<n<10K

相关ID

  • paperswithcode_id: rubq
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作