MicPie/unpredictable_cluster03
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_cluster03
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable数据集由从互联网表格中提取的少样本任务组成,用于微调语言模型以提高其少样本性能。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k等,每个版本根据不同的标准(如网站来源、人工质量评分、聚类等)进行划分。数据集支持多种任务类型,如多项选择、问答、文本生成等,且语言为英语。数据集的创建目的是为了研究训练数据与少样本学习之间的关系。
The UnpredicTable dataset comprises few-shot tasks extracted from web tables, intended for fine-tuning language models to enhance their few-shot learning performance. It features multiple variants including UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k, and others, with each variant partitioned based on distinct criteria such as website source, human quality rating, clustering, and more. The dataset supports a wide range of task types, including multiple choice, question answering, text generation, and others, and is entirely in English. The core purpose of developing this dataset is to investigate the relationship between training data and few-shot learning.
提供机构:
MicPie
原始信息汇总
数据集概述
数据集名称
- 名称:UnpredicTable-cluster03
- 别名:UnpredicTable-cluster03
数据集基本信息
- 语言:英语
- 许可证:Apache-2.0
- 多语言性:单语种
- 大小:100K<n<1M
数据集任务类型
- 任务类型:
- 多项选择
- 问答
- 零样本分类
- 文本到文本生成
- 表格问答
- 文本生成
- 文本分类
- 表格分类
- 具体任务ID:
- 多项选择-问答
- 抽取式问答
- 开放领域问答
- 封闭领域问答
- 封闭书本问答
- 开放书本问答
- 语言建模
- 多类分类
- 自然语言推理
- 主题分类
- 多标签分类
- 表格多类分类
- 表格多标签分类
数据集内容描述
- 内容摘要:UnpredicTable数据集包含从网页表格格式化而来的少量任务,用于微调语言模型以提高其少量样本性能。
- 数据集版本:
- UnpredicTable-full:包含413,299个任务,来自23,744个独特网站。
- UnpredicTable-unique:与UnpredicTable-full相同,但每个网站最多包含一个任务。
- UnpredicTable-5k:包含从完整数据集中随机选择的5,000个表格。
- UnpredicTable-rated-low/medium/high:基于手动人类质量评级的子集。
- 基于网站来源的子集,如UnpredicTable-baseball-fantasysports-yahoo-com等。
- 基于聚类的子集,如UnpredicTable-cluster00至UnpredicTable-cluster29。
数据集结构
- 数据实例:每个任务以jsonline文件形式表示,包含多个少量样本示例。
- 数据字段:包括任务标识、输入、选项、输出等,以及元数据如页面标题、标题、输出列名、URL等。
- 数据分割:数据集未提供额外的数据分割。
数据集创建
- 来源数据:数据源自WDC Web Table Corpus 2015的英语关系子集,包含50,820,165个表格。
- 注释过程:手动注释仅用于评估任务质量的子集。
- 个人和敏感信息:数据未经过滤,可能包含敏感信息。
使用数据注意事项
- 社会影响:数据集用于研究训练数据与少量样本学习之间的关系,不应未经仔细调查用于关键决策或用户界面。
- 偏见讨论:数据集可能包含有害偏见和文本,模型训练需谨慎。
附加信息
- 数据集管理员:Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
- 引用信息:详见提供的引用信息。



