Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集
收藏数据集概述
- 名称: OpenOrca
- 语言: 英语
- 许可证: MIT
- 任务类别:
- 对话
- 文本分类
- 令牌分类
- 表格问题回答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
- 大小类别: 10M<n<100M
数据集内容
- 数据来源: 基于FLAN Collection数据,通过GPT-4和GPT-3.5进行增强。
- 数据规模: 约1M GPT-4完成和约3.2M GPT-3.5完成。
- 数据结构: 表格化,与ORCA论文中描述的分布相符。
数据集结构
- 数据实例: 每个实例代表从FLAN Collection中提取的问题,并通过GPT-4或GPT-3.5获取响应。
- 数据字段:
- id - 唯一标识符,包含niv, t0, cot, 或 flan以表示来源的FLAN Collection子混合。
- system_prompt - 系统提示,用于GPT-3.5或GPT-4 API。
- question - 来自FLAN Collection的问题。
- response - 通过查询GPT-3.5或GPT-4获得的响应。
- 数据分割: 未分割。
数据集创建
- 筛选理由: 提供增强的文本数据,主要用于增强FLAN Collection数据,利用GPT-3.5和GPT-4的详细步骤推理能力。
- 源数据: 使用HuggingFace上托管的预生成FLAN Collection数据集,如conceptofmind/flan2021。
数据集使用
- 使用案例: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
- 使用注意事项: 由于数据集仍在进行中,建议定期检查更新和改进,并遵循ORCA论文中的指南和建议。
支持的任务和排行榜
- 支持任务: 包括语言建模、文本生成和文本增强。
- 排行榜: 相关信息将在可用时更新。

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录