SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集
收藏数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
- 特征:
- 名称: instruction
- 数据类型: string
- 名称: response
- 数据类型: string
- 名称: category
- 数据类型: string
- 名称: evolution_strategy
- 数据类型: string
- 名称: in-depth-evolving_operation
- 数据类型: string
- 名称: epoch
- 数据类型: int64
- 名称: falcon_status
- 数据类型: string
- 名称: falcon_rating
- 数据类型: string
- 名称: falcon_reason
- 数据类型: string
- 名称: gpt4_status
- 数据类型: string
- 名称: gpt4_rating
- 数据类型: string
- 名称: gpt4_reason
- 数据类型: string
- 名称: instruction
- 分割:
- 名称: train
- 字节数: 4701491
- 样本数: 2304
- 名称: train
- 下载大小: 2438727
- 数据集大小: 4701491
任务类别
- text-generation
语言
- en
数据集生成
- 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
- 种子指令: 从 databricks/databricks-dolly-15k 数据集中选出
- 生成方法: 使用对话语法进行深度和广度进化的迭代进化指令
- 总指令数: 2,304 个指令调优数据样本
数据集结构
- 指令
- 响应
- 进化策略 (深度或广度)
- 类别 (原始指令的类别)
用途
- 用于指令数据集的自动进化,增强指令的复杂性和多样性,以训练语言模型执行广泛任务。
引用
@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集作者
- Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake

中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
PartNet
我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。
OpenDataLab 收录
CMU-MOSI
CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。
DataCite Commons 收录
Spambase
Spambase数据集是一个垃圾邮件数据集,包含57个属性和4601个实例。该数据集主要用于垃圾邮件的识别和分类。垃圾邮件的资源都来自邮件管理员和提交垃圾邮件的个人。可用于构建垃圾邮件过滤器。 该数据集由惠普实验室在1999年7月发布,马克·霍普金斯、埃里克·里伯、乔治·福尔曼和雅普·苏蒙德为主要贡献者。
OpenDataLab 收录
