five

facebook/kilt_tasks

收藏
Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/kilt_tasks
下载链接
链接失效反馈
官方服务:
资源简介:
KILT数据集是一个多任务知识密集型语言任务数据集,主要用于填充掩码、问答、文本分类、文本生成、文本检索和文本到文本生成等任务。数据集包含多个配置,如aidayago2、cweb、eli5、fever、hotpotqa、nq、structured_zeroshot、trex、triviaqa_support_only和wned。数据集为单语(英语),通过众包、已有数据和机器生成的方法创建。每个配置包含详细的特征描述,如输入、输出、元数据等,并提供了训练、验证和测试集的字节大小和示例数量。
提供机构:
facebook
原始信息汇总

数据集概述

基本信息

  • 数据集名称: KILT
  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语种
  • 数据集大小分类: 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M
  • 任务类别:
    • 填充掩码
    • 问答
    • 文本分类
    • 文本生成
    • 文本检索
    • 文本到文本生成
  • 任务ID:
    • 抽象问答
    • 对话建模
    • 文档检索
    • 实体链接检索
    • 抽取问答
    • 事实检查
    • 事实检查检索
    • 开放域抽象问答
    • 开放域问答
    • 槽填充

配置详情

aidayago2

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • train: 18395个样本, 68943890字节
    • validation: 4784个样本, 20743172字节
    • test: 4463个样本, 14210587字节
  • 下载大小: 13419920字节
  • 数据集大小: 103897649字节

cweb

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • validation: 5599个样本, 89819252字节
    • test: 5543个样本, 99208393字节
  • 下载大小: 32809813字节
  • 数据集大小: 189027645字节

eli5

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • train: 272634个样本, 525554458字节
    • validation: 1507个样本, 13860033字节
    • test: 600个样本, 107092字节
  • 下载大小: 329302944字节
  • 数据集大小: 539521583字节

fever

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • train: 104966个样本, 23937486字节
    • validation: 10444个样本, 3167751字节
    • test: 10100个样本, 1040116字节
  • 下载大小: 11571038字节
  • 数据集大小: 28145353字节

hotpotqa

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • train: 88869个样本, 33595295字节
    • validation: 5600个样本, 2371262字节
    • test: 5569个样本, 887204字节
  • 下载大小: 17914796字节
  • 数据集大小: 36853761字节

nq

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id: 字符串
  • 分割:
    • train: 87372个样本, 30385368字节
    • validation: 2837个样本, 6190373字节
    • test: 1444个样本, 333162字节
  • 下载大小: 16535475字节
  • 数据集大小: 36908903字节

structured_zeroshot

  • 特征:
    • id: 字符串
    • input: 字符串
    • meta: 结构体
      • left_context: 字符串
      • mention: 字符串
      • right_context: 字符串
      • partial_evidence: 列表
        • start_paragraph_id: 32位整数
        • end_paragraph_id: 32位整数
        • title: 字符串
        • section: 字符串
        • wikipedia_id: 字符串
        • meta: 结构体
          • evidence_span: 字符串列表
      • obj_surface: 字符串列表
      • sub_surface: 字符串列表
      • subj_aliases: 字符串列表
      • template_questions: 字符串列表
    • output: 列表
      • answer: 字符串
      • meta: 结构体
        • score: 32位整数
      • provenance: 列表
        • bleu_score: 32位浮点数
        • start_character: 32位整数
        • start_paragraph_id: 32位整数
        • end_character: 32位整数
        • end_paragraph_id: 32位整数
        • meta: 结构体
          • fever_page_id: 字符串
          • fever_sentence_id: 32位整数
          • annotation_id: 字符串
          • yes_no_answer: 字符串
          • evidence_span: 字符串列表
        • section: 字符串
        • title: 字符串
        • wikipedia_id:
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作