MicPie/unpredictable_cluster20

Name: MicPie/unpredictable_cluster20
Creator: MicPie
Published: 2022-08-04 19:57:20
License: 暂无描述

Hugging Face2022-08-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MicPie/unpredictable_cluster20

下载链接

链接失效反馈

官方服务：

资源简介：

UnpredicTable-cluster20数据集是一个基于网络表格的少样本任务数据集，旨在通过微调语言模型来提高其在少样本任务中的表现。数据集包含多个版本，如UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k等，每个版本都有不同的筛选标准。数据集的任务类型非常广泛，包括多项选择、问答、文本分类等。数据集的语言为英语，且没有额外的数据分割。数据集的创建目的是为了研究训练数据与少样本学习之间的关系。

The UnpredicTable-cluster20 dataset is a web table-based few-shot task dataset designed to improve language models' performance on few-shot tasks via fine-tuning. It includes multiple variants such as UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k, and others, each with distinct filtering criteria. The dataset covers a wide range of task types, including multiple choice, question answering, text classification, and more. It is compiled in English with no additional data splits. This dataset was developed to investigate the relationship between training data and few-shot learning.

提供机构：

MicPie

原始信息汇总

数据集概述

数据集名称

名称: UnpredicTable-cluster20
别名: UnpredicTable

数据集描述

概述: UnpredicTable是一个包含网络表格的数据集，这些表格被格式化为少样本任务，用于微调语言模型以提高其少样本性能。
版本: 该数据集有多个版本，包括UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k以及基于人工质量评级的子集等。

支持的任务

任务类型: 多选题、问答、零样本分类、文本到文本生成、表格问答、文本生成、文本分类、表格分类等。
任务ID: 包括多选题QA、抽取式QA、开放域QA、闭域QA、闭书QA、开书QA、语言建模、多类分类、自然语言推理、主题分类、多标签分类、表格多类分类、表格多标签分类等。

语言

语言: 英语

数据集结构

数据实例: 每个任务以jsonline文件形式表示，包含多个少样本示例。每个示例包括task、input、options、output等字段。
数据字段: 包括任务标识、输入列元素、选项、输出目标、页面标题、输出列名、URL、WDC文件等。
数据分割: 数据集未提供额外的数据分割。

数据集创建

来源数据: 数据集从WDC Web Table Corpus 2015中提取，该数据集包含50,820,165个表格，来自323,160个网络域。
注释过程: 仅对特定子集进行了人工注释以评估任务质量。
个人和敏感信息: 数据集可能包含未过滤的个人或敏感信息。

使用数据的考虑

社会影响: 数据集应用于研究目的，可能包含高质量和低质量数据，以及可能不真实或不适当的内容。
偏见讨论: 数据集可能包含网络上的有害偏见和文本，未进行偏见分析或内容过滤。

附加信息

数据集管理员: Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
许可信息: Apache 2.0
引用信息: 请参阅提供的引用信息。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，探索训练数据与少样本学习之间的关系需要大规模且多样化的任务资源。UnpredicTable-cluster20数据集源自WDC网络表格语料库中的英文关系型子集，该语料库从Common Crawl网络爬虫数据中提取了超过五千万张表格。研究团队通过自动化流程，将这些网络表格转化为少样本学习任务，每个任务包含输入、选项及输出字段，形成结构化的任务实例。该数据集作为聚类分析后的子集之一，体现了从海量网络数据中系统化构建任务型数据的方法。

使用方法

该数据集主要服务于语言模型的少样本性能提升研究。使用者可通过加载数据集，获取以JSON行格式存储的任务实例，每个实例包含任务标识、输入、选项及目标输出等字段。研究人员可利用这些任务对模型进行微调或预训练，以探索训练数据特性对下游少样本学习效果的影响。鉴于数据源自未经过滤的网络内容，包含潜在偏见或不适当信息，建议将其严格用于学术研究，避免直接应用于关键决策或面向用户的部署场景。

背景与挑战

背景概述

在自然语言处理领域，小样本学习旨在使模型通过极少量示例快速适应新任务，然而传统小样本数据集的构建往往依赖昂贵的人工标注，限制了任务的规模与多样性。为突破这一瓶颈，纽约大学的研究团队于2022年创建了UnpredicTable数据集，其核心研究问题聚焦于探索训练数据特性与小样本学习性能之间的关联。该数据集从WDC网络表格语料库中自动提取了逾41万个任务，覆盖了从多项选择到表格问答的广泛任务类型，为研究训练数据分布对小样本适应性的影响提供了大规模、多样化的实证基础，推动了小样本学习数据源自动构建方法的发展。

当前挑战

该数据集致力于解决小样本学习领域的一个核心挑战：如何在不依赖人工密集标注的前提下，获取大规模、高质量且任务多样化的训练数据以提升模型的小样本适应能力。在构建过程中，研究团队面临多重挑战：首先，从原始网络表格中自动生成结构化的少样本任务，需设计稳健的转换流程以准确识别表格中的输入-输出关系；其次，网络数据的固有噪声与质量参差不齐，要求对任务进行有效筛选与质量评估；此外，数据中可能包含敏感信息与有害偏见，需在研究与伦理使用之间寻求平衡，确保数据资源的负责任应用。

常用场景

经典使用场景

在自然语言处理领域，表格数据蕴含着丰富的结构化知识，为模型理解复杂语义关系提供了独特视角。UnpredicTable-cluster20作为基于聚类的子集，其经典使用场景聚焦于探索特定主题分布下的少样本学习机制。研究者通常利用该数据集对语言模型进行微调，通过其格式化的表格任务来模拟真实世界中数据稀疏情境下的推理过程，从而系统评估模型在有限示例下捕捉表格隐含模式与跨列关联的能力。

解决学术问题

该数据集主要针对少样本学习领域的关键挑战：如何利用多样化且未经人工标注的原始数据提升模型泛化性能。它通过自动化流程将海量网络表格转化为标准化任务，解决了传统少样本数据集规模有限、主题覆盖狭窄的瓶颈问题。其意义在于为研究训练数据分布与下游任务表现之间的复杂关系提供了大规模实验平台，推动了数据驱动型少样本适应理论的发展，并为理解模型在开放域任务中的知识迁移机制提供了实证基础。

实际应用

在实际应用层面，该数据集支撑着智能表格理解系统的开发与优化。基于其训练的模型可应用于自动化报表分析、金融数据查询、学术信息抽取等场景，能够从异构表格中快速提取关键指标与关联规则。在商业智能领域，这类技术可辅助决策者从历史数据表中发现潜在趋势；在教育科技中，则能赋能自适应学习系统，根据结构化知识库生成个性化测评题目，提升知识传递效率。

数据集最近研究