five

unpredictable/unpredictable_5k

收藏
Hugging Face2022-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/unpredictable/unpredictable_5k
下载链接
链接失效反馈
官方服务:
资源简介:
UnpredicTable-5k数据集由互联网表格组成,这些表格被格式化为少样本任务,用于微调语言模型以提高其在少样本学习中的表现。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique和UnpredicTable-5k,分别包含不同数量的任务和表格。数据集的任务类型广泛,包括多项选择、问答、文本分类等,且数据来源于WDC Web Table Corpus。
提供机构:
unpredictable
原始信息汇总

数据集概述

数据集名称

  • 名称: UnpredicTable-5k
  • 别名: UnpredicTable-full, UnpredicTable-unique, UnpredicTable-support-google-com

数据集描述

数据集摘要

  • 内容: 包含5000个随机选择的网络表格,格式化为少样本任务,用于微调语言模型以提高其少样本性能。
  • 来源: 从WTC语料库的5000万个表格中提取。

支持的任务和排行榜

  • 任务类型: 多选题、问答、零样本分类、文本生成、表格问答、文本分类、表格分类等。
  • 用途: 用于提高少样本学习性能的微调/预训练。

语言

  • 语言: 英语

数据集结构

数据实例

  • 格式: JSON行文件,每个任务包含多个少样本示例。
  • 结构: 每个示例包含task, input, options, output等字段,以及其他元数据如pageTitle, title, outputColName, url, wdcFile。

数据字段

  • task: 任务标识符
  • input: 表格中特定行的列元素
  • options: 多选分类中的选项
  • output: 与输入同行的目标列元素
  • pageTitle: 包含表格的页面标题
  • outputColName: 输出列名
  • url: 包含表格的网站URL
  • wdcFile: WDC Web Table Corpus文件

数据分割

  • 分割: 无额外数据分割

数据集创建

数据收集和规范化

  • 来源: 从WDC Web Table Corpus 2015的英语关系子集中自动提取。
  • 处理: 将表格转换为少样本学习任务。

个人和敏感信息

  • 风险: 数据未经过滤,可能包含个人身份或敏感信息。

使用数据集的考虑

社会影响

  • 用途: 用于研究训练数据与少样本学习之间的关系。
  • 警告: 数据质量不一,内容可能不真实或不适当,不适用于决策关键或用户面对的场景。

偏见讨论

  • 存在问题: 数据集可能包含有害偏见,如种族主义、性别歧视等。
  • 处理: 未进行偏见分析或内容过滤。

附加信息

许可证信息

  • 许可证: Apache 2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作