five

declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集

收藏
hugging_face2023-07-06 更新2024-03-04 收录
自然语言处理
编程语言理解
下载链接:
https://hf-mirror.com/datasets/declare-lab/flan-mini
下载链接
链接失效反馈
资源简介:
Flan-mini数据集是从Flan Collection中精心挑选的子集,旨在保持任务多样性的同时减少数据集的总大小。该数据集通过添加现有的代码数据集(如CodeContests、APPS和CodeSearchNet)进行了增强。数据集的每个样本都经过随机增强,使用了手工制作的提示模板,并可能作为零样本示例或与少量示例组合使用。此外,数据集还整合了多种ChatGPT数据集,包括Alpaca、Code Alpaca和ShareGPT。
提供机构:
declare-lab
原始信息汇总

数据集概述

数据集名称

  • Flan-mini

数据集特征

  • id: 字符串类型
  • source: 字符串类型
  • conversations: 列表类型

数据集分割

  • train: 包含1,340,153个样本

许可证

  • cc

数据集大小

  • 1M<n<10M

数据集内容

  • 包含多个子数据集,总大小为1.34M。
  • 主要子数据集包括:
    • Flan2021: 388K
    • Public Pool of Prompts: 320K
    • Natural instructions v2: 200K
    • CoT: 100K
    • Code Search: 100K
    • Code Contest: 50K
    • Apps: 50K
    • GPT4-Alpaca: 52K
    • Code-Alpaca: 20K
    • ShareGPT: 60K

数据集用途

  • 用于Flan Fine-Tuning,增强问题解决能力。

数据集来源

  • 部分数据集来自Flan Collection,部分通过添加现有代码数据集(如CodeContests, APPS, CodeSearchNet)进行增强。
  • 包含多种ChatGPT数据集,如Alpaca, Code Alpaca, ShareGPT。

数据处理

  • 每个数据集的样本数量固定,样本通过手工制作的提示模板随机增强,可用作零样本示例或与少量演示组合。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录