facebook/kilt_tasks

Name: facebook/kilt_tasks
Creator: facebook
Published: 2024-01-04 14:01:11
License: 暂无描述

Hugging Face2024-01-04 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/facebook/kilt_tasks

下载链接

链接失效反馈

官方服务：

资源简介：

KILT数据集是一个多任务知识密集型语言任务数据集，主要用于填充掩码、问答、文本分类、文本生成、文本检索和文本到文本生成等任务。数据集包含多个配置，如aidayago2、cweb、eli5、fever、hotpotqa、nq、structured_zeroshot、trex、triviaqa_support_only和wned。数据集为单语（英语），通过众包、已有数据和机器生成的方法创建。每个配置包含详细的特征描述，如输入、输出、元数据等，并提供了训练、验证和测试集的字节大小和示例数量。

提供机构：

facebook

原始信息汇总

数据集概述

基本信息

数据集名称: KILT
语言: 英语
许可证: MIT
多语言性: 单语种
数据集大小分类: 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M
任务类别:
- 填充掩码
- 问答
- 文本分类
- 文本生成
- 文本检索
- 文本到文本生成
任务ID:
- 抽象问答
- 对话建模
- 文档检索
- 实体链接检索
- 抽取问答
- 事实检查
- 事实检查检索
- 开放域抽象问答
- 开放域问答
- 槽填充

配置详情

aidayago2

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- train: 18395个样本, 68943890字节
- validation: 4784个样本, 20743172字节
- test: 4463个样本, 14210587字节
下载大小: 13419920字节
数据集大小: 103897649字节

cweb

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- validation: 5599个样本, 89819252字节
- test: 5543个样本, 99208393字节
下载大小: 32809813字节
数据集大小: 189027645字节

eli5

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- train: 272634个样本, 525554458字节
- validation: 1507个样本, 13860033字节
- test: 600个样本, 107092字节
下载大小: 329302944字节
数据集大小: 539521583字节

fever

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- train: 104966个样本, 23937486字节
- validation: 10444个样本, 3167751字节
- test: 10100个样本, 1040116字节
下载大小: 11571038字节
数据集大小: 28145353字节

hotpotqa

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- train: 88869个样本, 33595295字节
- validation: 5600个样本, 2371262字节
- test: 5569个样本, 887204字节
下载大小: 17914796字节
数据集大小: 36853761字节

nq

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id: 字符串
分割:
- train: 87372个样本, 30385368字节
- validation: 2837个样本, 6190373字节
- test: 1444个样本, 333162字节
下载大小: 16535475字节
数据集大小: 36908903字节

structured_zeroshot

特征:
- id: 字符串
- input: 字符串
- meta: 结构体
  - left_context: 字符串
  - mention: 字符串
  - right_context: 字符串
  - partial_evidence: 列表
    - start_paragraph_id: 32位整数
    - end_paragraph_id: 32位整数
    - title: 字符串
    - section: 字符串
    - wikipedia_id: 字符串
    - meta: 结构体
      - evidence_span: 字符串列表
  - obj_surface: 字符串列表
  - sub_surface: 字符串列表
  - subj_aliases: 字符串列表
  - template_questions: 字符串列表
- output: 列表
  - answer: 字符串
  - meta: 结构体
    - score: 32位整数
  - provenance: 列表
    - bleu_score: 32位浮点数
    - start_character: 32位整数
    - start_paragraph_id: 32位整数
    - end_character: 32位整数
    - end_paragraph_id: 32位整数
    - meta: 结构体
      - fever_page_id: 字符串
      - fever_sentence_id: 32位整数
      - annotation_id: 字符串
      - yes_no_answer: 字符串
      - evidence_span: 字符串列表
    - section: 字符串
    - title: 字符串
    - wikipedia_id:

5,000+

优质数据集

54 个

任务类型

进入经典数据集