five

mhardalov/reasoning_bg

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/mhardalov/reasoning_bg
下载链接
链接失效反馈
官方服务:
资源简介:
ReasoningBg数据集包含来自保加利亚十二年级毕业考试和在线历史测验的2,221个问题,涵盖了生物学、哲学、地理和历史等多个学科。每个数据点包括一个问题、四个可能的答案选项和正确答案。数据集的语言为保加利亚语,主要用于多项选择问答任务。

ReasoningBg数据集包含来自保加利亚十二年级毕业考试和在线历史测验的2,221个问题,涵盖了生物学、哲学、地理和历史等多个学科。每个数据点包括一个问题、四个可能的答案选项和正确答案。数据集的语言为保加利亚语,主要用于多项选择问答任务。
提供机构:
mhardalov
原始信息汇总

数据集概述

基本信息

  • 语言: 保加利亚语 (bg)
  • 许可证: Apache 2.0
  • 多语言性: 单语种
  • 数据集大小: n<1K
  • 源数据: 原始数据
  • 任务类别: 问答 (question-answering)
  • 任务ID: 多项选择问答 (multiple-choice-qa)

数据集配置

  • biology-12th

    • 特征:
      • id: 字符串
      • url: 字符串
      • qid: 整数
      • question: 字符串
      • answers: 字符串序列
      • correct: 字符串
    • 分割:
      • train: 437个样本, 197725字节
    • 下载大小: 1753795字节
    • 数据集大小: 197725字节
  • philosophy-12th

    • 特征:
      • id: 字符串
      • url: 字符串
      • qid: 整数
      • question: 字符串
      • answers: 字符串序列
      • correct: 字符串
    • 分割:
      • train: 630个样本, 286999字节
    • 下载大小: 1753795字节
    • 数据集大小: 286999字节
  • geography-12th

    • 特征:
      • id: 字符串
      • url: 字符串
      • qid: 整数
      • question: 字符串
      • answers: 字符串序列
      • correct: 字符串
    • 分割:
      • train: 612个样本, 283417字节
    • 下载大小: 1753795字节
    • 数据集大小: 283417字节
  • history-12th

    • 特征:
      • id: 字符串
      • url: 字符串
      • qid: 整数
      • question: 字符串
      • answers: 字符串序列
      • correct: 字符串
    • 分割:
      • train: 542个样本, 341472字节
    • 下载大小: 1753795字节
    • 数据集大小: 341472字节
  • history-quiz

    • 特征:
      • id: 字符串
      • url: 字符串
      • qid: 整数
      • question: 字符串
      • answers: 字符串序列
      • correct: 字符串
    • 分割:
      • train: 412个样本, 164495字节
    • 下载大小: 1753795字节
    • 数据集大小: 164495字节

数据实例

一个典型的数据点包括一个问题句子和四个可能的选择答案以及正确答案。

json { "id": "21181dda96414fd9b7a5e336ad84b45d", "qid": 1, "question": "!0<>AB>OB5;=> AJI5AB2C20I8 6828 A8AB5<8 A0:", "answers": [ "28@CA8B5", "BJ:0=8B5", "<8B>E>=4@88B5", "54=>:;5BJG=8B5 >@30=87<8" ], "correct": "54=>:;5BJG=8B5 >@30=87<8", "url": "http://zamatura.eu/files/dzi/biologiq/2010/matura-biologiq-2010.pdf" }

数据字段

  • url: 问题来源的URL
  • id: 每个示例的问题标识符
  • qid: 该URL中问题的序列号
  • question: 问题的标题
  • answers: 每个答案的列表
  • correct: 正确答案

数据分割

数据集涵盖以下领域:

领域 问答对数量 选项数量 问题长度 选项长度 词汇量
12年级毕业考试
生物学 437 4 10.44 2.64 2,414 (12,922)
哲学 630 4 8.91 2.94 3,636 (20,392)
地理 612 4 12.83 2.47 3,239 (17,668)
历史 542 4 23.74 3.64 5,466 (20,456)
在线历史测验
保加利亚历史 229 4 14.05 2.80 2,287 (10,620)
PzHistory 183 3 38.89 2.44 1,261 (7,518)
总计 2,633 3.93 15.67 2.89 13,329 (56,104)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作