five

community-datasets/qanta

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/qanta
下载链接
链接失效反馈
官方服务:
资源简介:
Qanta数据集是一个基于学术问答游戏Quizbowl的问答数据集。该数据集包含多个配置,每个配置有不同的数据分割和特征。数据集的主要任务类别是问答(question-answering),并且是单语(monolingual)的,语言为英语(en)。数据集的规模在10万到100万之间,数据集的创建者是通过机器生成的注释,并且数据集的来源是原始的。
提供机构:
community-datasets
原始信息汇总

数据集卡片 for "qanta"

数据集描述

数据集摘要

Qanta 数据集是一个基于学术 trivia 游戏 Quizbowl 的问答数据集。

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

mode=first,char_skip=25

  • 下载的数据集文件大小: 170.75 MB
  • 生成的数据集大小: 147.18 MB
  • 磁盘使用总量: 317.93 MB

一个 guessdev 的例子如下:

json { "answer": "Apollo_program", "category": "History", "char_idx": -1, "dataset": "quizdb.org", "difficulty": "easy_college", "first_sentence": "As part of this program, William Anders took a photo that Galen Rowell called "the most influential environmental photograph ever taken."", "fold": "guessdev", "full_question": ""As part of this program, William Anders took a photo that Galen Rowell called "the most influential environmental photograph e...", "gameplay": false, "id": "127028-first", "page": "Apollo_program", "proto_id": "", "qanta_id": 127028, "qdb_id": 126689, "raw_answer": "Apollo program [or Project Apollo; accept Apollo 8; accept Apollo 1; accept Apollo 11; prompt on landing on the moon]", "sentence_idx": -1, "subcategory": "American", "text": "As part of this program, William Anders took a photo that Galen Rowell called "the most influential environmental photograph ever taken."", "tokenizations": [[0, 137], [138, 281], [282, 412], [413, 592], [593, 675]], "tournament": "ACF Fall", "year": 2016 }

数据字段

所有分割的数据字段相同。

mode=first,char_skip=25

  • id: 一个 string 特征。
  • qanta_id: 一个 int32 特征。
  • proto_id: 一个 string 特征。
  • qdb_id: 一个 int32 特征。
  • dataset: 一个 string 特征。
  • text: 一个 string 特征。
  • full_question: 一个 string 特征。
  • first_sentence: 一个 string 特征。
  • char_idx: 一个 int32 特征。
  • sentence_idx: 一个 int32 特征。
  • tokenizations: 一个包含以下内容的字典特征:
    • feature: 一个 int32 特征。
  • answer: 一个 string 特征。
  • page: 一个 string 特征。
  • raw_answer: 一个 string 特征。
  • fold: 一个 string 特征。
  • gameplay: 一个 bool 特征。
  • category: 一个 string 特征。
  • subcategory: 一个 string 特征。
  • tournament: 一个 string 特征。
  • difficulty: 一个 string 特征。
  • year: 一个 int32 特征。

数据分割

name adversarial buzzdev buzztrain guessdev guesstrain buzztest guesstest
mode=first,char_skip=25 1145 1161 16706 1055 96221 1953 2151
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作