unpredictable/unpredictable_5k
收藏Hugging Face2022-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unpredictable/unpredictable_5k
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable-5k数据集由互联网表格组成,这些表格被格式化为少样本任务,用于微调语言模型以提高其在少样本学习中的表现。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique和UnpredicTable-5k,分别包含不同数量的任务和表格。数据集的任务类型广泛,包括多项选择、问答、文本分类等,且数据来源于WDC Web Table Corpus。
提供机构:
unpredictable
原始信息汇总
数据集概述
数据集名称
- 名称: UnpredicTable-5k
- 别名: UnpredicTable-full, UnpredicTable-unique, UnpredicTable-support-google-com
数据集描述
数据集摘要
- 内容: 包含5000个随机选择的网络表格,格式化为少样本任务,用于微调语言模型以提高其少样本性能。
- 来源: 从WTC语料库的5000万个表格中提取。
支持的任务和排行榜
- 任务类型: 多选题、问答、零样本分类、文本生成、表格问答、文本分类、表格分类等。
- 用途: 用于提高少样本学习性能的微调/预训练。
语言
- 语言: 英语
数据集结构
数据实例
- 格式: JSON行文件,每个任务包含多个少样本示例。
- 结构: 每个示例包含task, input, options, output等字段,以及其他元数据如pageTitle, title, outputColName, url, wdcFile。
数据字段
- task: 任务标识符
- input: 表格中特定行的列元素
- options: 多选分类中的选项
- output: 与输入同行的目标列元素
- pageTitle: 包含表格的页面标题
- outputColName: 输出列名
- url: 包含表格的网站URL
- wdcFile: WDC Web Table Corpus文件
数据分割
- 分割: 无额外数据分割
数据集创建
数据收集和规范化
- 来源: 从WDC Web Table Corpus 2015的英语关系子集中自动提取。
- 处理: 将表格转换为少样本学习任务。
个人和敏感信息
- 风险: 数据未经过滤,可能包含个人身份或敏感信息。
使用数据集的考虑
社会影响
- 用途: 用于研究训练数据与少样本学习之间的关系。
- 警告: 数据质量不一,内容可能不真实或不适当,不适用于决策关键或用户面对的场景。
偏见讨论
- 存在问题: 数据集可能包含有害偏见,如种族主义、性别歧视等。
- 处理: 未进行偏见分析或内容过滤。
附加信息
许可证信息
- 许可证: Apache 2.0



