MicPie/unpredictable_cluster17
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_cluster17
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable数据集由互联网表格组成,格式化为few-shot任务,用于微调语言模型以提高其在few-shot学习中的表现。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k等,以及基于网站、质量评级和聚类的子集。数据集的语言为英语,未进行人工标注,但部分子集进行了质量评级。数据集的使用需注意可能存在的偏见和敏感信息。
The UnpredicTable dataset consists of Internet tables formatted as few-shot tasks, designed for fine-tuning language models to improve their performance in few-shot learning. It includes multiple variants such as UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k, as well as subsets based on websites, quality ratings and clustering. The dataset is in English with no manual annotation, though some subsets have been assigned quality ratings. Caution should be exercised regarding potential biases and sensitive information when utilizing this dataset.
提供机构:
MicPie
原始信息汇总
数据集概述
数据集名称
- 名称: UnpredicTable-cluster17
- 别名: UnpredicTable
数据集描述
- 概述: UnpredicTable 数据集包含从网页表格中提取的少量样本任务,用于微调语言模型以提高其在少量样本学习任务上的表现。
- 版本: 数据集有多个版本,包括 UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k 等。
支持的任务
- 任务类型: 多选题、问答、零样本分类、文本生成、表格问答、文本分类、表格分类等。
- 任务ID: 包括多种问答和分类任务,如 multiple-choice-qa, extractive-qa, open-domain-qa 等。
语言
- 语言: 英语
数据集结构
- 数据实例: 每个任务以 jsonline 文件形式表示,包含多个少量样本示例。
- 数据字段: 包括任务标识、输入、选项、输出等字段,以及页面标题、输出列名、URL 等元数据。
- 数据分割: 数据集未提供额外的数据分割。
数据集创建
- 筛选理由: 用于研究训练数据与少量样本学习之间的关系。
- 源数据: 数据来源于 WDC Web Table Corpus 2015 的英语关系子集。
- 注释: 仅对特定子集进行了人工质量评级。
- 个人信息和敏感信息: 数据集可能包含敏感信息,未进行过滤。
使用数据集的考虑
- 社会影响: 数据集包含高质量和低质量数据,以及可能不真实或不适当的内容。
- 偏见讨论: 数据集可能包含有害偏见和有毒文本,未进行分析或过滤。
附加信息
- 数据集维护者: Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
- 许可信息: Apache 2.0
- 引用信息: 请参考论文 "Few-shot Adaptation Works with UnpredicTable Data"。



