five

Locutusque/hyperion-v2.0

收藏
Hugging Face2024-03-11 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hyperion-v2.0
下载链接
链接失效反馈
官方服务:
资源简介:
Hyperion是一个专注于科学领域的问答和对话数据集,旨在提升AI在推理和理解方面的能力。它整合了多个来源的数据,包括编程、医学文本、数学问题和推理任务,并经过清洗以提高数据质量。数据集包含约200万条记录,主要用于训练模型处理复杂问答、对话理解、代码生成和理解、医学文本理解和问答、数学和逻辑推理等任务。

Hyperion是一个专注于科学领域的问答和对话数据集,旨在提升AI在推理和理解方面的能力。它整合了多个来源的数据,包括编程、医学文本、数学问题和推理任务,并经过清洗以提高数据质量。数据集包含约200万条记录,主要用于训练模型处理复杂问答、对话理解、代码生成和理解、医学文本理解和问答、数学和逻辑推理等任务。
提供机构:
Locutusque
原始信息汇总

Hyperion v2.0 数据集概述

数据集描述

Hyperion 是一个综合性的问答和对话数据集,旨在推动人工智能研究在科学领域(如科学、医学、数学和计算机科学)中的推理和理解方面的进步。该数据集整合了来自多个数据集的数据,有助于开发能够处理复杂查询和指令的模型。

数据集组成

Hyperion 整合了多个数据集,包括:

  • cognitivecomputations/dolphin (前25万条示例)
  • Open-Orca/SlimOrca-Dedup
  • Evol Instruct 70K && 140K
  • teknium/GPT4-LLM-Cleaned
  • jondurbin/airoboros-3.2
  • AlekseyKorshuk/camel-chatml
  • CollectiveCognition/chats-data-2023-09-22
  • lmsys chat 1M GPT-4 only
  • glaiveai/glaive-code-assistant-v2
  • glaiveai/glaive-code-assistant
  • garage-bAInd/Open-Platypus
  • microsoft/orca-math-word-problems-200k
  • teknium/GPTeacher-General-Instruct
  • BI55/MedText
  • Unnatural Instructions
  • CollectiveCognition/chats-data-2023-09-27
  • CollectiveCognition/chats-data-2023-10-16
  • LDJnr/Capybara
  • LDJnr/Pure-Dove
  • ise-uiuc/Magicoder-Evol-Instruct-110K
  • ise-uiuc/Magicoder-OSS-Instruct-75K
  • causal-lm/cot_alpaca_gpt4
  • 各种医疗 CogStack 数据集
  • totally-not-an-llm/EverythingLM-data-V3
  • FuseAI/FuseChat-Mixture
  • abacusai/SystemChat
  • m-a-p/Code-Feedback

整合后的数据集经过彻底清洗,去除了 RLHF 拒绝的内容。

数据集大小

清洗前的数据集包含约210万条示例,清洗后的数据集包含约200万条示例。

数据集划分

数据集主要由其组成数据集的训练部分组成。

数据字段

Hyperion 的数据字段包括:

  • conversations: 一个 ShareGPT 格式的对话交换
  • source: 包含源数据集的字符串

数据格式

该数据集采用 parquet 格式,以降低存储使用。

使用场景

Hyperion 适用于训练机器学习模型,用于以下任务:

  • 复杂问答
  • 对话理解
  • 代码生成和理解
  • 医学文本理解和问答
  • 数学推理
  • 逻辑推理和指令遵循

已知限制

由于专注于技术和专业领域,数据集可能需要模型具有大量领域特定知识,这可能限制其在一般对话场景中的应用。此外,多个数据集的整合可能引入格式、标注质量和内容的不一致性,需要在预处理过程中解决。

许可信息

该数据集在 apache-2.0 许可下发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作