five

SirNeural/flan_v2

收藏
hugging_face2023-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SirNeural/flan_v2
下载链接
链接失效反馈
资源简介:
Flan V2数据集是一个处理后的版本,旨在提供更易于访问的格式。数据集的创建者建议尝试不同的任务混合比例以获得最佳的下游结果。数据集包含多种任务格式,如Few Shot、Zero Shot、Options Provided in context和No Options Provided,并以JSONL格式保存。数据集的设置和使用需要遵循特定的步骤,包括手动构建AESLC和WinoGrande数据集、修复数据集版本、下载和安装手动步骤,以及最终导出任务。
提供机构:
SirNeural
原始信息汇总

数据集概述

数据集名称: Flan v2

许可证: Apache-2.0

标签:

  • flan
  • flan 2022
  • flan v2

美观名称: Flan v2

数据集详细信息

数据集总结:

  • 这是一个Flan V2数据集的处理版本。
  • 作者推荐尝试不同的任务混合比例以获得最佳的下游结果。

数据结构:

  • 数据实例: 包含Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)。
  • 数据字段: 指令数据格式包括Few Shot (fs), Zero Shot (zs), 选项提供在上下文中(即多项选择)(opt), 和无选项提供(noopt)。
  • 数据分割: 所有数据保存为训练分割。注意:FLAN-fs-opt-train由于过大,被分割成45GB的块。合并恢复命令为:cat flan_fs_opt_train_*.gz | gunzip -c > flan_fs_opt_train.jsonl

数据集格式: 每个任务+格式的组合保存为JSONL格式,具有以下架构:{"input": ..., "target": ..., "task": ...}

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

SSGD

SSGD是由清华大学深圳国际研究生院创建的智能手机屏幕玻璃缺陷检测数据集,包含2504张高分辨率图像,涵盖7种常见缺陷类型。数据集通过专业的采集设备在固定工作站上捕获,确保图像质量。创建过程包括数据收集、标注和图像标准化处理。SSGD主要应用于工业生产中的自动视觉检测,旨在提高检测效率和准确性,减少人为错误。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

lmarena-ai/arena-human-preference-100k

这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。

hugging_face 收录