declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集
收藏数据集概述
数据集名称
- Flan-mini
数据集特征
- id: 字符串类型
- source: 字符串类型
- conversations: 列表类型
数据集分割
- train: 包含1,340,153个样本
许可证
- cc
数据集大小
- 1M<n<10M
数据集内容
- 包含多个子数据集,总大小为1.34M。
- 主要子数据集包括:
- Flan2021: 388K
- Public Pool of Prompts: 320K
- Natural instructions v2: 200K
- CoT: 100K
- Code Search: 100K
- Code Contest: 50K
- Apps: 50K
- GPT4-Alpaca: 52K
- Code-Alpaca: 20K
- ShareGPT: 60K
数据集用途
- 用于Flan Fine-Tuning,增强问题解决能力。
数据集来源
- 部分数据集来自Flan Collection,部分通过添加现有代码数据集(如CodeContests, APPS, CodeSearchNet)进行增强。
- 包含多种ChatGPT数据集,如Alpaca, Code Alpaca, ShareGPT。
数据处理
- 每个数据集的样本数量固定,样本通过手工制作的提示模板随机增强,可用作零样本示例或与少量演示组合。
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录