MicPie/unpredictable_bulbapedia-bulbagarden-net
收藏Hugging Face2022-08-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MicPie/unpredictable_bulbapedia-bulbagarden-net
下载链接
链接失效反馈官方服务:
资源简介:
UnpredicTable数据集由网络表格格式化而成的少样本任务组成,旨在通过微调语言模型来提高其在少样本任务中的表现。数据集包含多个版本,如UnpredicTable-full、UnpredicTable-unique、UnpredicTable-5k等,每个版本都有不同的任务数量和来源网站。数据集支持多种任务类型,如多项选择、问答、文本生成等。数据集的语言为英语,且未进行人工标注,数据来源于WDC Web Table Corpus。
The UnpredicTable dataset comprises few-shot tasks formatted as web tables, designed to improve the performance of language models on few-shot tasks through fine-tuning. It includes multiple variants such as UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k, etc., where each variant features distinct quantities of tasks and source websites. The dataset supports diverse task types including multiple choice, question answering, text generation, and more. The dataset is in English, has not undergone manual annotation, and its data is sourced from the WDC Web Table Corpus.
提供机构:
MicPie
原始信息汇总
数据集概述
数据集名称
- 名称: UnpredicTable-bulbapedia-bulbagarden-net
- 别名: UnpredicTable
数据集描述
- 概述: UnpredicTable 数据集包含从网页表格中提取的少量任务,用于微调语言模型以提高其少量学习性能。
- 版本: 包括多个版本,如 UnpredicTable-full, UnpredicTable-unique, UnpredicTable-5k 等。
- 任务类型: 支持多种任务,包括多项选择、问答、零样本分类、文本生成等。
语言
- 语言: 英语
数据集结构
- 数据实例: 每个任务以jsonline文件形式表示,包含多个少量示例。
- 数据字段: 包括任务标识、输入、选项、输出等字段。
- 数据分割: 数据集未提供额外的数据分割。
数据集创建
- 来源数据: 数据来源于WDC Web Table Corpus 2015的英语关系子集。
- 注释过程: 仅对特定子集进行了手动注释以评估任务质量。
使用考虑
- 社会影响: 数据集内容多样,可能包含不真实或不适当的内容,不适用于训练决策关键或用户面对的模型。
- 偏见讨论: 数据集可能包含有害偏见和有毒文本,未进行偏见分析或内容过滤。
附加信息
- 许可证: Apache 2.0
- 数据集管理员: Jun Shern Chan, Michael Pieler, Jonathan Jao, Jérémy Scheurer, Ethan Perez
- 引用信息: 见提供的README文件中的引用信息。



