SirNeural/flan_v2

hugging_face2023-02-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SirNeural/flan_v2

下载链接

链接失效反馈

资源简介：

Flan V2数据集是一个处理后的版本，旨在提供更易于访问的格式。数据集的创建者建议尝试不同的任务混合比例以获得最佳的下游结果。数据集包含多种任务格式，如Few Shot、Zero Shot、Options Provided in context和No Options Provided，并以JSONL格式保存。数据集的设置和使用需要遵循特定的步骤，包括手动构建AESLC和WinoGrande数据集、修复数据集版本、下载和安装手动步骤，以及最终导出任务。

提供机构：

SirNeural

原始信息汇总

数据集概述

数据集名称： Flan v2

许可证： Apache-2.0

标签：

flan
flan 2022
flan v2

美观名称： Flan v2

数据集详细信息

数据集总结：

这是一个Flan V2数据集的处理版本。
作者推荐尝试不同的任务混合比例以获得最佳的下游结果。

数据结构：

数据实例： 包含Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)。
数据字段： 指令数据格式包括Few Shot (fs), Zero Shot (zs), 选项提供在上下文中（即多项选择）(opt), 和无选项提供(noopt)。
数据分割： 所有数据保存为训练分割。注意：FLAN-fs-opt-train由于过大，被分割成45GB的块。合并恢复命令为：cat flan_fs_opt_train_*.gz | gunzip -c > flan_fs_opt_train.jsonl。

数据集格式： 每个任务+格式的组合保存为JSONL格式，具有以下架构：{"input": ..., "target": ..., "task": ...}。

AI搜集汇总

数据集介绍

构建方式

SirNeural/flan_v2数据集是对原始Flan V2数据集进行加工处理后的版本，旨在提供一种便捷的数据访问格式。构建过程中，数据集维护者手动更新了相关依赖数据集的版本，并重新计算了checksums以确保数据一致性。通过使用TensorFlow Data Set Library和T5模型工具，将各种任务和格式组合导出为JSONL格式的数据文件，每一数据实例包含输入、输出和任务类型等信息。

特点

该数据集的特点在于其包含了多种任务类型，如flan、t0、niv2、cot和dialog等，并支持Few Shot、Zero Shot、Options Provided和No Options等多种数据格式。所有数据均以训练集的形式提供，部分大型数据文件被分割为多个部分以便于处理和下载。数据集遵循Apache-2.0许可证，保证了数据的开放性和可用性。

使用方法

使用该数据集时，用户需要先根据README中的说明手动构建一些依赖数据集，并下载必要的额外数据文件。之后，通过运行提供的Python脚本，用户可以导出所需任务和格式的数据文件。这些文件可用于进一步的数据处理、模型训练和评估等任务。用户应确保遵循数据使用条款，并在必要时对数据进行适当的组合和恢复处理。

背景与挑战

背景概述

Flan v2数据集，作为Flan Collection的一部分，由Google的研究团队于2023年推出，旨在推进自然语言处理领域的研究。该数据集的构建，是为了提供一个多样化的任务集合，通过不同的任务混合比例实验，以优化下游任务的表现。数据集涵盖了多种任务类型，如对话、零样本学习、多选选项等，其研究成果已发布在相应的科学论文中，对自然语言处理领域产生了显著的影响。

当前挑战

在构建Flan v2数据集的过程中，研究团队面临了多个挑战。首先，数据集的多样性和规模带来了整合与处理的挑战。其次，保证数据集版本的一致性和准确性需要不断更新和修复，如在数据集构建中需要对相关依赖的版本进行手动更新。此外，数据集的大体积导致部分文件难以直接上传和分享，需要特殊的处理手段才能完整地使用数据集。

常用场景

经典使用场景

在自然语言处理领域，Flan V2数据集的经典使用场景在于其为研究者提供了一种便捷的方式来探索和实验不同任务混合比例对下游任务结果的影响。通过该数据集，研究者和开发者可以有效地测试和优化模型在多样化任务中的表现，进而提升模型的泛化能力。

解决学术问题

Flan V2数据集解决了学术研究中模型迁移性评估的难题，它通过集合多种任务类型和格式，使得研究者能够在统一框架下评估模型在不同任务间的适应性和表现，这对于促进模型泛化理论和实践的发展具有重要的意义和影响。

衍生相关工作

基于Flan V2数据集，学术界和产业界已衍生出一系列相关工作，包括但不限于模型性能比较研究、新型任务混合策略的探索，以及针对特定领域任务模型的定制化训练，这些工作进一步推动了自然语言处理领域的发展和创新。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

双色球开奖号码数据集

双色球开奖号码数据集从2003001-2025011

魔搭社区收录

🌧️ Digital Typhoon Dataset WP (GIFs| 57GB)

🌧️ Digital Typhoon Dataset Western Pacific (Animated GIFs)

kaggle 收录