five

MicPie/unpredictable_baseball-fantasysports-yahoo-com

收藏
Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_baseball-fantasysports-yahoo-com
下载链接
链接失效反馈
官方服务:
资源简介:
UnpredicTable-baseball-fantasysports-yahoo-com数据集是UnpredicTable数据集的一个子集,专门针对来自baseball-fantasysports-yahoo-com网站的表格数据。该数据集的主要目的是通过将网页表格格式化为少样本任务,来微调语言模型以提高其在少样本学习中的表现。数据集包含多个版本,每个版本根据不同的标准(如网站来源、质量评级、聚类等)进行划分。数据集的任务类型非常广泛,包括多项选择、问答、文本生成、文本分类等。数据集的创建过程涉及从WDC Web Table Corpus中提取表格,并将其转换为少样本学习任务。数据集的语言为英语,且未进行任何敏感信息的过滤,因此可能包含有害的偏见和文本。

The UnpredicTable-baseball-fantasysports-yahoo-com dataset is a subset of the UnpredicTable dataset, specifically targeting tabular data sourced from the baseball-fantasysports-yahoo-com website. The primary goal of this dataset is to fine-tune large language models (LLMs) to enhance their few-shot learning performance by formatting web tables into few-shot learning tasks. The dataset includes multiple versions, each partitioned based on different criteria such as website source, quality rating, clustering, and so on. The dataset covers a wide range of task types, including multiple choice, question answering, text generation, text classification, and more. The dataset creation process involves extracting tables from the WDC Web Table Corpus and converting them into few-shot learning tasks. The dataset is in English, and no sensitive information filtering has been performed, so it may contain harmful biases and offensive text.
提供机构:
MicPie
原始信息汇总

数据集概述

数据集名称

  • 名称: UnpredicTable-baseball-fantasysports-yahoo-com

数据集基本信息

  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 100K<n<1M

数据集版本

  • UnpredicTable-full: 包含413,299个任务,来自23,744个独特网站。
  • UnpredicTable-unique: 与UnpredicTable-full相同,但每个网站最多一个任务。
  • UnpredicTable-5k: 包含5,000个随机选择的表格。
  • 基于质量评级的子集: 包括低、中、高质量评级的子集。
  • 基于网站来源的子集: 包括多个特定网站的子集,如UnpredicTable-baseball-fantasysports-yahoo-com。
  • 基于聚类的子集: 包括多个基于聚类的子集。

支持的任务类型

  • 多选题
  • 问答
  • 零样本分类
  • 文本到文本生成
  • 表格问答
  • 文本生成
  • 文本分类
  • 表格分类

数据集结构

  • 数据实例: 每个任务以jsonline文件形式表示,包含多个few-shot示例。
  • 数据字段: 包括任务标识、输入、选项、输出等。
  • 数据分割: 数据集未提供额外的数据分割。

数据集创建

  • 来源数据: 数据来源于WDC Web Table Corpus 2015的英语关系子集。
  • 注释过程: 仅对特定子集进行了手动注释以评估任务质量。
  • 个人和敏感信息: 数据集可能包含未过滤的个人和敏感信息。

使用数据的考虑

  • 社会影响: 数据集用于研究训练数据与少样本学习之间的关系,不适用于关键决策或用户面对的情况。
  • 偏见讨论: 数据集可能包含有害偏见和文本,未进行偏见分析或内容过滤。

附加信息

  • 数据集创建者: Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
  • 许可证信息: Apache 2.0
  • 引用信息: 见提供的README文件内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作