MicPie/unpredictable_gamefaqs-com
收藏数据集概述:UnpredicTable-gamefaqs-com
数据集描述
数据集摘要
UnpredicTable-gamefaqs-com 数据集包含从网页表格中提取的少量任务,用于微调语言模型以提高其在少量样本学习(few-shot learning)中的表现。该数据集包含多种版本,包括全量数据集、唯一网站数据集、随机抽样数据集以及基于人类质量评级的子集等。
支持的任务
数据集支持多种任务,包括多项选择、问答、零样本分类、文本生成、表格问答、文本分类和表格分类等。
语言
数据集仅包含英语内容。
数据集结构
数据实例
每个任务以jsonline文件格式表示,包含多个少量样本示例。每个示例包括任务标识、输入、选项和输出等字段,以及页面标题、输出列名、URL和WDC文件等元数据。
数据字段
- task: 任务标识
- input: 表格中特定行的列元素
- options: 多选分类时的选项
- output: 与输入同一行的目标列元素
- pageTitle: 包含表格的页面标题
- outputColName: 输出列名
- url: 包含表格的网站URL
- wdcFile: WDC Web Table Corpus文件
数据分割
UnpredicTable数据集未提供额外的数据分割。
数据集创建
数据收集与规范化
数据集从WDC Web Table Corpus 2015的英语关系子集中自动提取,该子集包含50,820,165个表格,来自323,160个网站域名。
注释过程
数据集的注释主要针对质量评级的子集进行,由实验室助理执行。
个人与敏感信息
数据集未经过滤,可能包含用户身份或敏感信息。
使用数据集的考虑
社会影响
数据集用于研究训练数据与少量样本学习之间的关系,包含高质量和低质量数据,以及可能不真实或不适当的内容。
偏见讨论
数据集未进行偏见分析,也未明确过滤内容,因此模型训练可能反映出数据集中存在的潜在有害偏见和有毒文本。
其他已知限制
无其他已知限制。
附加信息
数据集管理员
Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
许可信息
Apache 2.0
引用信息
@misc{chan2022few, author = {Chan, Jun Shern and Pieler, Michael and Jao, Jonathan and Scheurer, Jérémy and Perez, Ethan}, title = {Few-shot Adaptation Works with UnpredicTable Data}, publisher={arXiv}, year = {2022}, url = {https://arxiv.org/abs/2208.01009} }



