SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集
收藏数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: instruction
- 数据类型: string
- 名称: response
- 数据类型: string
- 名称: category
- 数据类型: string
- 名称: evolution_strategy
- 数据类型: string
- 名称: in-depth-evolving_operation
- 数据类型: string
- 名称: epoch
- 数据类型: int64
- 名称: falcon_status
- 数据类型: string
- 名称: falcon_rating
- 数据类型: string
- 名称: falcon_reason
- 数据类型: string
- 名称: gpt4_status
- 数据类型: string
- 名称: gpt4_rating
- 数据类型: string
- 名称: gpt4_reason
- 数据类型: string
- 名称: instruction
- 分割:
- 名称: train
- 字节数: 4701491
- 样本数: 2304
- 名称: train
- 下载大小: 2438727
- 数据集大小: 4701491
任务类别
- text-generation
语言
- en
数据集生成
- 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
- 种子指令: 从 databricks/databricks-dolly-15k 数据集中选出
- 生成方法: 使用对话语法进行深度和广度进化的迭代进化指令
- 总指令数: 2,304 个指令调优数据样本
数据集结构
- 指令
- 响应
- 进化策略 (深度或广度)
- 类别 (原始指令的类别)
用途
- 用于指令数据集的自动进化,增强指令的复杂性和多样性,以训练语言模型执行广泛任务。
引用
@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集作者
- Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
长基线雷电密度24小时分布图
长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。
国家空间科学数据中心 收录
GTEx (Genotype-Tissue Expression)
GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。
gtexportal.org 收录
CWD30
CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。
github 收录