five

SirNeural/flan_v2

收藏
hugging_face2023-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SirNeural/flan_v2
下载链接
链接失效反馈
资源简介:
Flan V2数据集是一个处理后的版本,旨在提供更易于访问的格式。数据集的创建者建议尝试不同的任务混合比例以获得最佳的下游结果。数据集包含多种任务格式,如Few Shot、Zero Shot、Options Provided in context和No Options Provided,并以JSONL格式保存。数据集的设置和使用需要遵循特定的步骤,包括手动构建AESLC和WinoGrande数据集、修复数据集版本、下载和安装手动步骤,以及最终导出任务。
提供机构:
SirNeural
原始信息汇总

数据集概述

数据集名称: Flan v2

许可证: Apache-2.0

标签:

  • flan
  • flan 2022
  • flan v2

美观名称: Flan v2

数据集详细信息

数据集总结:

  • 这是一个Flan V2数据集的处理版本。
  • 作者推荐尝试不同的任务混合比例以获得最佳的下游结果。

数据结构:

  • 数据实例: 包含Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot), 和 Dialog (dialog)。
  • 数据字段: 指令数据格式包括Few Shot (fs), Zero Shot (zs), 选项提供在上下文中(即多项选择)(opt), 和无选项提供(noopt)。
  • 数据分割: 所有数据保存为训练分割。注意:FLAN-fs-opt-train由于过大,被分割成45GB的块。合并恢复命令为:cat flan_fs_opt_train_*.gz | gunzip -c > flan_fs_opt_train.jsonl

数据集格式: 每个任务+格式的组合保存为JSONL格式,具有以下架构:{"input": ..., "target": ..., "task": ...}

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

BC-MRI-SEG

BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。

arXiv 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录