MicPie/unpredictable_cluster26
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_cluster26
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable-cluster26数据集是一个用于few-shot任务训练的数据集,包含从互联网表格中提取的多种任务类型,如多项选择、问答、文本生成等。数据集的语言为英语,数据格式为jsonline文件,每个任务包含输入、选项、输出等字段。数据集的创建目的是为了研究训练数据与few-shot学习之间的关系,数据集未进行敏感信息过滤,可能包含有害的偏见和文本。
The UnpredicTable-cluster26 dataset is designed for few-shot task training. It encompasses various task types extracted from internet tables, such as multiple-choice, question answering, text generation, and more. The dataset is in English, with data stored in jsonline format files. Each task includes fields like input, options, output and more. The purpose of creating this dataset is to investigate the relationship between training data and few-shot learning. This dataset has not been filtered for sensitive information, and may contain harmful biases and text.
提供机构:
MicPie
原始信息汇总
数据集概述
数据集名称
- 名称: UnpredicTable-cluster26
- 别名: UnpredicTable数据集的集群子集之一
数据集基本信息
- 语言: 英语
- 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 100K<n<1M
数据集版本
- UnpredicTable-full: 包含413,299任务,来自23,744个独特网站。
- UnpredicTable-unique: 与UnpredicTable-full相同,但每个网站最多一个任务。
- UnpredicTable-5k: 包含5k随机表格。
- 基于人类质量评级的子集:
- UnpredicTable-rated-low
- UnpredicTable-rated-medium
- UnpredicTable-rated-high
- 基于网站来源的子集:
- 多个特定网站的子集,如UnpredicTable-baseball-fantasysports-yahoo-com等。
- 基于聚类的子集:
- 多个集群子集,如UnpredicTable-cluster00至UnpredicTable-cluster29,以及UnpredicTable-cluster-noise。
支持的任务
- 任务类型:
- 多选题
- 问答
- 零样本分类
- 文本到文本生成
- 表格问答
- 文本生成
- 文本分类
- 表格分类
- 具体任务ID:
- 多个选择题QA
- 抽取式QA
- 开放域QA
- 封闭域QA
- 闭书QA
- 开书QA
- 语言建模
- 多类分类
- 自然语言推理
- 主题分类
- 多标签分类
- 表格多类分类
- 表格多标签分类
数据集结构
- 数据实例:
- 每个任务表示为jsonline文件,包含多个few-shot示例。
- 每个示例包含task, input, options, output等字段。
- 数据字段:
- task: 任务标识符
- input: 表格特定行的列元素
- options: 多选分类的选项
- output: 与输入同行的目标列元素
- pageTitle, title, outputColName, url, wdcFile等元数据字段。
数据集创建
- 来源数据:
- 从WDC Web Table Corpus 2015的英语关系子集中自动提取任务。
- 注释过程:
- 仅对特定子集进行手动注释以评估任务质量。
- 个人和敏感信息:
- 数据未经过滤,可能包含敏感信息。
使用数据的考虑
- 社会影响:
- 作为研究资源,用于研究训练数据与少样本学习之间的关系。
- 偏见讨论:
- 数据集可能包含有害偏见,未进行偏见分析。
附加信息
- 数据集管理员:
- Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
- 许可证信息:
- Apache 2.0



