MicPie/unpredictable_en-wikipedia-org
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_en-wikipedia-org
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable数据集由从互联网表格中提取的few-shot任务组成,旨在通过微调语言模型来提高其few-shot性能。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k等,每个版本包含不同数量的任务和表格。数据集的任务类型广泛,包括多项选择、问答、文本生成等。数据集的语言为英语,未进行人工标注,但部分子集进行了质量评级。数据集来源于WDC Web Table Corpus,未经过滤,可能包含敏感信息。
注释创建者:
- 无注释
语言创建方式:
- 爬取现有公开文本
语言:
- en
许可证:
- apache-2.0
多语言属性:
- 单语言
显示名称:UnpredicTable-en-wikipedia-org
规模类别:
- 10万<n<100万
源数据集:
- 无
任务类别:
- 多项选择
- 问答
- 零样本(Zero-shot)分类
- 文本到文本生成
- 表格问答
- 文本生成
- 文本分类
- 表格分类
任务子类别:
- 多项选择问答
- 抽取式问答
- 开放域问答
- 封闭域问答
- 闭卷问答
- 开卷问答
- 语言建模
- 多分类
- 自然语言推理
- 主题分类
- 多标签分类
- 表格多分类
- 表格多标签分类
# 「UnpredicTable-en-wikipedia-org」数据集卡片——基于表格的少样本任务数据集
## 目录
- [数据集概述](#数据集概述)
- [数据集摘要](#数据集摘要)
- [支持的任务与排行榜](#支持的任务与排行榜)
- [语言](#语言)
- [数据集结构](#数据集结构)
- [数据实例](#数据实例)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [数据集创建](#数据集创建)
- [数据集构建依据](#数据集构建依据)
- [源数据](#源数据)
- [注释](#注释)
- [个人与敏感信息](#个人与敏感信息)
- [数据集使用注意事项](#数据集使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏见讨论](#偏见讨论)
- [其他已知局限性](#其他已知局限性)
- [附加信息](#附加信息)
- [数据集整理者](#数据集整理者)
- [许可证信息](#许可证信息)
- [引用信息](#引用信息)
## 数据集概述
- **"主页"**:https://ethanperez.net/unpredictable
- **"代码仓库"**:https://github.com/JunShern/few-shot-adaptation
- **"论文"**:《少样本适配在UnpredicTable数据上的有效性》(Few-shot Adaptation Works with UnpredicTable Data)
- **"联系人"**:junshern@nyu.edu, perez@nyu.edu
### 数据集摘要
UnpredicTable数据集由网络表格构成,被格式化为少样本任务,用于对大语言模型(Large Language Model, LLM)进行微调,以提升其少样本学习性能。
本数据集提供多个版本:
* **UnpredicTable全量版(UnpredicTable-full)**:以初始WTC语料库的5000万张表格为基础,我们通过表格到任务的转换流程生成了本数据集,包含来自23744个独特网站的413299个任务。
* **UnpredicTable去重版(UnpredicTable-unique)**:与UnpredicTable全量版内容一致,但过滤为每个网站最多包含一个任务,包含来自23744个网站的23744个任务。
* **UnpredicTable-5k版**:包含全量数据集中的5000张随机表格。
* 基于人工质量评分的UnpredicTable数据子集(评分细节请参阅我们的发表论文):
* UnpredicTable低质量版(UnpredicTable-rated-low)
* UnpredicTable中质量版(UnpredicTable-rated-medium)
* UnpredicTable高质量版(UnpredicTable-rated-high)
* 基于来源网站的UnpredicTable数据子集:
* UnpredicTable-baseball-fantasysports-yahoo-com
* UnpredicTable-bulbapedia-bulbagarden-net
* UnpredicTable-cappex-com
* UnpredicTable-cram-com
* UnpredicTable-dividend-com
* UnpredicTable-dummies-com
* UnpredicTable-en-wikipedia-org
* UnpredicTable-ensembl-org
* UnpredicTable-gamefaqs-com
* UnpredicTable-mgoblog-com
* UnpredicTable-mmo-champion-com
* UnpredicTable-msdn-microsoft-com
* UnpredicTable-phonearena-com
* UnpredicTable-sittercity-com
* UnpredicTable-sporcle-com
* UnpredicTable-studystack-com
* UnpredicTable-support-google-com
* UnpredicTable-w3-org
* UnpredicTable-wiki-openmoko-org
* UnpredicTable-wkdu-org
* 基于聚类的UnpredicTable数据子集(聚类细节请参阅我们的发表论文):
* UnpredicTable-cluster00
* UnpredicTable-cluster01
* UnpredicTable-cluster02
* UnpredicTable-cluster03
* UnpredicTable-cluster04
* UnpredicTable-cluster05
* UnpredicTable-cluster06
* UnpredicTable-cluster07
* UnpredicTable-cluster08
* UnpredicTable-cluster09
* UnpredicTable-cluster10
* UnpredicTable-cluster11
* UnpredicTable-cluster12
* UnpredicTable-cluster13
* UnpredicTable-cluster14
* UnpredicTable-cluster15
* UnpredicTable-cluster16
* UnpredicTable-cluster17
* UnpredicTable-cluster18
* UnpredicTable-cluster19
* UnpredicTable-cluster20
* UnpredicTable-cluster21
* UnpredicTable-cluster22
* UnpredicTable-cluster23
* UnpredicTable-cluster24
* UnpredicTable-cluster25
* UnpredicTable-cluster26
* UnpredicTable-cluster27
* UnpredicTable-cluster28
* UnpredicTable-cluster29
* UnpredicTable-cluster-noise
### 支持的任务与排行榜
由于本数据集的表格均来自网络,任务与主题的分布极为广泛。本数据集的特点是「宽覆盖」:即包含数千个任务,但每个任务仅含少量示例;而当前多数自然语言处理(NLP)数据集则为「深聚焦」:即仅包含数十个任务,但每个任务拥有大量示例。这意味着本数据集覆盖了广泛的潜在任务类型,例如多项选择、问答、表格问答、文本分类等。
本数据集的目标用途是通过在其上进行微调或预训练,提升大语言模型的少样本学习性能。
### 语言
英语
## 数据集结构
### 数据实例
每个任务以JSON Lines格式的文件表示,包含若干少样本示例。每个示例为一个字典,包含用于标识任务的`task`字段,以及`input`、`options`和`output`字段。`input`字段包含表格中同一行的多个列元素,`output`字段则为该行对应某一列的目标值。每个任务包含若干此类示例,可拼接为一个少样本任务。对于多项选择分类任务,`options`字段包含模型需从中选择的候选类别。
此外还包含`pageTitle`、`title`、`outputColName`、`url`、`wdcFile`等附加元数据字段。
### 数据字段
`task`:任务标识符
`input`:表格中特定行的列元素
`options`:多项选择分类任务的候选选项
`output`:与`input`对应行的目标列元素
`pageTitle`:包含该表格的网页标题
`outputColName`:输出列名称
`url`:包含该表格的网站链接
`wdcFile`:WDC网络表格语料库文件
### 数据划分
UnpredicTable系列数据集未提供额外的数据划分。
## 数据集创建
### 数据集构建依据
已有研究表明,在多任务数据集上进行少样本训练可提升大语言模型在新任务上的少样本学习(Few-shot Learning, FSL)性能,但目前尚不明确哪些训练任务能够有效实现下游任务适配。现有的少样本学习数据集通常需要耗费大量人力进行整理,这限制了可用于研究的训练任务的规模与多样性。作为少样本数据的替代来源,我们从多样化的网络表格中自动提取了413299个任务,将其作为研究训练数据与少样本学习之间关系的科研资源。
### 源数据
#### 初始数据收集与标准化
我们使用了WDC 2015网络表格语料库(WDC Web Table Corpus 2015)英文关系性子集的网络表格。WTC数据集的表格提取自2015年7月的Common Crawl网络语料库(http://webdatacommons.org/webtables/2015/EnglishStatistics.html),该数据集包含来自323160个网络域名的50820165张表格。随后我们将这些表格转换为少样本学习任务。有关数据收集与转换流程的更多细节,请参阅我们的发表论文。
#### 源语言内容的生产者是谁?
本数据集提取自[WDC网络表格语料库](http://webdatacommons.org/webtables/)。
### 注释
#### 注释流程
仅针对UnpredicTable低质量版(UnpredicTable-rated-low)、UnpredicTable中质量版(UnpredicTable-rated-medium)和UnpredicTable高质量版(UnpredicTable-rated-high)这三个数据子集进行了人工注释,用于评估任务质量。注释的详细说明可参阅我们的发表论文。
#### 注释人员是谁?
注释工作由一名实验室助理完成。
### 个人与敏感信息
本数据集提取自[WDC网络表格语料库](http://webdatacommons.org/webtables/),而该语料库的表格又提取自[Common Crawl](https://commoncrawl.org/)。我们未对数据进行任何过滤处理,因此数据集中可能包含任何用户身份信息或其他敏感内容,例如:揭示种族或族裔出身、性取向、宗教信仰、政治观点或工会成员身份的信息,地理位置信息;财务或健康数据;生物特征或遗传数据;政府身份证件信息(如社会保障号码);犯罪记录等。
## 数据集使用注意事项
### 数据集的社会影响
本数据集仅作为研究训练数据与少样本学习之间关系的科研资源。因此,数据集中包含高质量与低质量的数据,同时也可能包含不真实或不当的多样化内容。未经仔细评估,不得将其用于训练将部署于决策关键场景或面向用户的模型。
### 偏见讨论
由于本数据集的表格均从网络爬取,因此也会包含大量有毒、种族主义、性别歧视及其他有害的偏见内容与文本。我们未对数据集中存在的偏见进行任何分析,也未对内容进行显式过滤。这意味着基于本数据集训练的模型可能会反映数据集中存在的有害偏见与有毒文本。
### 其他已知局限性
无其他已知局限性。
## 附加信息
### 数据集整理者
Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
### 许可证信息
Apache 2.0
### 引用信息
@misc{chan2022few,
author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan},
title = {Few-shot Adaptation Works with UnpredicTable Data},
publisher={arXiv},
year = {2022},
url = {https://arxiv.org/abs/2208.01009}
}
提供机构:
MicPie
原始信息汇总
数据集概述:UnpredicTable-en-wikipedia-org
数据集描述
数据集总结
- 名称: UnpredicTable-en-wikipedia-org
- 类型: 基于网络表格的少样本任务数据集
- 目的: 用于微调语言模型,以提高其在少样本学习场景下的表现
- 版本: 包含多个子集,如UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k等,以及基于质量和网站来源的子集
支持的任务和排行榜
- 任务类型: 多选题、问答、零样本分类、文本生成、表格问答、文本分类等
- 特点: 数据集宽广,包含数千种任务,每个任务样本较少,覆盖广泛的任务类型
语言
- 主要语言: 英语
数据集结构
数据实例
- 格式: JSON行文件
- 内容: 每个实例包含任务标识、输入、选项(多选题分类时)、输出等字段
- 元数据: 包括页面标题、输出列名、URL、WDC文件等
数据字段
- 任务: 任务标识符
- 输入: 表格中特定行的列元素
- 选项: 多选分类时的选项
- 输出: 与输入同行的目标列元素
- 页面标题: 包含表格的页面标题
- 输出列名: 输出列的名称
- URL: 包含表格的网站URL
- WDC文件: WDC Web Table Corpus文件
数据分割
- 分割方式: 数据集未提供额外的数据分割
数据集创建
筛选理由
- 目的: 研究训练数据与少样本学习之间的关系
- 方法: 自动从互联网表格中提取413,299个任务
源数据
- 来源: 英语语言的关系子集WDC Web Table Corpus 2015
- 数据量: 50,820,165个表格,来自323,160个网站域名
注释
- 注释过程: 仅对部分子集进行手动注释以评估任务质量
- 注释者: 实验室助理
个人和敏感信息
- 存在风险: 数据未经过滤,可能包含敏感信息
使用数据的考虑
社会影响
- 潜在风险: 数据质量不一,内容多样,可能包含不实或不当信息
偏见讨论
- 潜在问题: 数据集可能包含有害偏见和有毒文本,未经分析和过滤
其他已知限制
- 限制: 未提供其他已知限制
附加信息
数据集管理者
- Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
许可信息
- 许可类型: Apache 2.0



