five

Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集

收藏
hugging_face2025-02-19 更新2024-03-04 收录
自然语言处理
机器学习模型训练
下载链接:
https://hf-mirror.com/datasets/Open-Orca/OpenOrca
下载链接
链接失效反馈
资源简介:
OpenOrca数据集是一个增强的FLAN数据集合,主要用于自然语言处理领域的训练和评估。该数据集支持多种NLP任务,如语言建模、文本生成和文本增强,并已用于生成高性能模型检查点。数据集主要使用英语,包含来自FLAN集合的增强条目,每个条目包含来自GPT-3.5或GPT-4的响应。该数据集是一个持续进行的工作,定期更新。
提供机构:
Open-Orca
原始信息汇总

数据集概述

  • 名称: OpenOrca
  • 语言: 英语
  • 许可证: MIT
  • 任务类别:
    • 对话
    • 文本分类
    • 令牌分类
    • 表格问题回答
    • 问答
    • 零样本分类
    • 摘要
    • 特征提取
    • 文本生成
    • 文本到文本生成
  • 大小类别: 10M<n<100M

数据集内容

  • 数据来源: 基于FLAN Collection数据,通过GPT-4和GPT-3.5进行增强。
  • 数据规模: 约1M GPT-4完成和约3.2M GPT-3.5完成。
  • 数据结构: 表格化,与ORCA论文中描述的分布相符。

数据集结构

  • 数据实例: 每个实例代表从FLAN Collection中提取的问题,并通过GPT-4或GPT-3.5获取响应。
  • 数据字段:
    1. id - 唯一标识符,包含niv, t0, cot, 或 flan以表示来源的FLAN Collection子混合。
    2. system_prompt - 系统提示,用于GPT-3.5或GPT-4 API。
    3. question - 来自FLAN Collection的问题。
    4. response - 通过查询GPT-3.5或GPT-4获得的响应。
  • 数据分割: 未分割。

数据集创建

  • 筛选理由: 提供增强的文本数据,主要用于增强FLAN Collection数据,利用GPT-3.5和GPT-4的详细步骤推理能力。
  • 源数据: 使用HuggingFace上托管的预生成FLAN Collection数据集,如conceptofmind/flan2021

数据集使用

  • 使用案例: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
  • 使用注意事项: 由于数据集仍在进行中,建议定期检查更新和改进,并遵循ORCA论文中的指南和建议。

支持的任务和排行榜

  • 支持任务: 包括语言建模、文本生成和文本增强。
  • 排行榜: 相关信息将在可用时更新。
AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenOrca数据集是由FLAN Collection数据增强而成的集合,旨在为研究人员和开发者提供丰富的文本数据资源。该数据集通过将FLAN Collection中的问题提交给GPT-3.5或GPT-4,并将得到的回答作为数据点进行收录,以实现推理轨迹的增强,进而提高模型的推理能力。
特点
OpenOrca数据集的特点在于其基于FLAN Collection数据的增强,通过引入GPT-3.5和GPT-4的回答,为模型训练提供了丰富的推理信息。该数据集涵盖了约1M个GPT-4的完成和3.2M个GPT-3.5的完成,并以表格形式与ORCA论文中提出的数据分布保持一致。目前,该数据集仍在持续生成中,以扩大其规模和覆盖范围。
使用方法
使用OpenOrca数据集时,用户可以通过Hugging Face datasets库进行数据加载。由于文件体积较大,推荐使用流式加载方式。用户应当关注数据集的更新和改进,并遵循ORCA论文中的指南和建议进行使用。
背景与挑战
背景概述
OpenOrca数据集是一项旨在增强自然语言处理能力的研究成果,其创建背景源于对FLAN Collection数据集的拓展与深化。该数据集由多个贡献者共同构建,于2023年发布,主要研究人员涵盖了Teknium、WingLian/Caseus等领域的专家。OpenOrca的核心研究问题是如何通过GPT-3.5和GPT-4的推理轨迹增强来提升LLaMA-13B模型在硬推理任务上的表现。该数据集对相关领域的影响力体现在其助力了多个高性能模型检查点的生成,并在自然语言处理任务中表现出色。
当前挑战
OpenOrca数据集面临的挑战主要包括两个方面:一是数据集构建过程中的挑战,如FLAN Collection数据集中的CoT数据不足,以及数据集规模与Orca论文中描述的不符等问题;二是数据集解决的领域问题,即如何在保持数据质量的同时,有效支持语言模型在文本分类、零样本分类、文本摘要等任务上的训练与评估。
常用场景
经典使用场景
OpenOrca数据集作为FLAN Collection数据的增强版,其经典使用场景主要在于自然语言处理模型的训练与评估。该数据集通过引入GPT-3.5和GPT-4的详细推理过程,为模型提供了丰富的推理轨迹,进而显著提升了模型在复杂推理任务上的表现。
解决学术问题
该数据集解决了自然语言处理领域中小型模型在处理复杂推理任务时性能不佳的问题。通过推理轨迹的增强,使得基于LLaMA-13B等中小型模型能够匹敌或超越GPT-3.5,在一系列难度较高的推理任务上取得了显著进步。
衍生相关工作
基于OpenOrca数据集,研究者们已经开发出了多个性能卓越的模型 checkpoints,如Mistral-7B-OpenOrca和OpenOrca-Platypus2-13B等。这些模型的开发不仅推动了自然语言处理领域的研究,也为相关应用场景提供了强大的模型支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录