facebook/kilt_tasks
收藏Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/facebook/kilt_tasks
下载链接
链接失效反馈官方服务:
资源简介:
KILT数据集是一个多任务知识密集型语言任务数据集,主要用于填充掩码、问答、文本分类、文本生成、文本检索和文本到文本生成等任务。数据集包含多个配置,如aidayago2、cweb、eli5、fever、hotpotqa、nq、structured_zeroshot、trex、triviaqa_support_only和wned。数据集为单语(英语),通过众包、已有数据和机器生成的方法创建。每个配置包含详细的特征描述,如输入、输出、元数据等,并提供了训练、验证和测试集的字节大小和示例数量。
提供机构:
facebook
原始信息汇总
数据集概述
基本信息
- 数据集名称: KILT
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语种
- 数据集大小分类: 1K<n<10K, 10K<n<100K, 100K<n<1M, 1M<n<10M
- 任务类别:
- 填充掩码
- 问答
- 文本分类
- 文本生成
- 文本检索
- 文本到文本生成
- 任务ID:
- 抽象问答
- 对话建模
- 文档检索
- 实体链接检索
- 抽取问答
- 事实检查
- 事实检查检索
- 开放域抽象问答
- 开放域问答
- 槽填充
配置详情
aidayago2
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
train: 18395个样本, 68943890字节validation: 4784个样本, 20743172字节test: 4463个样本, 14210587字节
- 下载大小: 13419920字节
- 数据集大小: 103897649字节
cweb
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
validation: 5599个样本, 89819252字节test: 5543个样本, 99208393字节
- 下载大小: 32809813字节
- 数据集大小: 189027645字节
eli5
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
train: 272634个样本, 525554458字节validation: 1507个样本, 13860033字节test: 600个样本, 107092字节
- 下载大小: 329302944字节
- 数据集大小: 539521583字节
fever
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
train: 104966个样本, 23937486字节validation: 10444个样本, 3167751字节test: 10100个样本, 1040116字节
- 下载大小: 11571038字节
- 数据集大小: 28145353字节
hotpotqa
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
train: 88869个样本, 33595295字节validation: 5600个样本, 2371262字节test: 5569个样本, 887204字节
- 下载大小: 17914796字节
- 数据集大小: 36853761字节
nq
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id: 字符串
- 分割:
train: 87372个样本, 30385368字节validation: 2837个样本, 6190373字节test: 1444个样本, 333162字节
- 下载大小: 16535475字节
- 数据集大小: 36908903字节
structured_zeroshot
- 特征:
id: 字符串input: 字符串meta: 结构体left_context: 字符串mention: 字符串right_context: 字符串partial_evidence: 列表start_paragraph_id: 32位整数end_paragraph_id: 32位整数title: 字符串section: 字符串wikipedia_id: 字符串meta: 结构体evidence_span: 字符串列表
obj_surface: 字符串列表sub_surface: 字符串列表subj_aliases: 字符串列表template_questions: 字符串列表
output: 列表answer: 字符串meta: 结构体score: 32位整数
provenance: 列表bleu_score: 32位浮点数start_character: 32位整数start_paragraph_id: 32位整数end_character: 32位整数end_paragraph_id: 32位整数meta: 结构体fever_page_id: 字符串fever_sentence_id: 32位整数annotation_id: 字符串yes_no_answer: 字符串evidence_span: 字符串列表
section: 字符串title: 字符串wikipedia_id:



