Locutusque/hyperion-v2.0
收藏Hugging Face2024-03-11 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hyperion-v2.0
下载链接
链接失效反馈官方服务:
资源简介:
Hyperion是一个专注于科学领域的问答和对话数据集,旨在提升AI在推理和理解方面的能力。它整合了多个来源的数据,包括编程、医学文本、数学问题和推理任务,并经过清洗以提高数据质量。数据集包含约200万条记录,主要用于训练模型处理复杂问答、对话理解、代码生成和理解、医学文本理解和问答、数学和逻辑推理等任务。
Hyperion是一个专注于科学领域的问答和对话数据集,旨在提升AI在推理和理解方面的能力。它整合了多个来源的数据,包括编程、医学文本、数学问题和推理任务,并经过清洗以提高数据质量。数据集包含约200万条记录,主要用于训练模型处理复杂问答、对话理解、代码生成和理解、医学文本理解和问答、数学和逻辑推理等任务。
提供机构:
Locutusque
原始信息汇总
Hyperion v2.0 数据集概述
数据集描述
Hyperion 是一个综合性的问答和对话数据集,旨在推动人工智能研究在科学领域(如科学、医学、数学和计算机科学)中的推理和理解方面的进步。该数据集整合了来自多个数据集的数据,有助于开发能够处理复杂查询和指令的模型。
数据集组成
Hyperion 整合了多个数据集,包括:
- cognitivecomputations/dolphin (前25万条示例)
- Open-Orca/SlimOrca-Dedup
- Evol Instruct 70K && 140K
- teknium/GPT4-LLM-Cleaned
- jondurbin/airoboros-3.2
- AlekseyKorshuk/camel-chatml
- CollectiveCognition/chats-data-2023-09-22
- lmsys chat 1M GPT-4 only
- glaiveai/glaive-code-assistant-v2
- glaiveai/glaive-code-assistant
- garage-bAInd/Open-Platypus
- microsoft/orca-math-word-problems-200k
- teknium/GPTeacher-General-Instruct
- BI55/MedText
- Unnatural Instructions
- CollectiveCognition/chats-data-2023-09-27
- CollectiveCognition/chats-data-2023-10-16
- LDJnr/Capybara
- LDJnr/Pure-Dove
- ise-uiuc/Magicoder-Evol-Instruct-110K
- ise-uiuc/Magicoder-OSS-Instruct-75K
- causal-lm/cot_alpaca_gpt4
- 各种医疗 CogStack 数据集
- totally-not-an-llm/EverythingLM-data-V3
- FuseAI/FuseChat-Mixture
- abacusai/SystemChat
- m-a-p/Code-Feedback
整合后的数据集经过彻底清洗,去除了 RLHF 拒绝的内容。
数据集大小
清洗前的数据集包含约210万条示例,清洗后的数据集包含约200万条示例。
数据集划分
数据集主要由其组成数据集的训练部分组成。
数据字段
Hyperion 的数据字段包括:
conversations: 一个 ShareGPT 格式的对话交换source: 包含源数据集的字符串
数据格式
该数据集采用 parquet 格式,以降低存储使用。
使用场景
Hyperion 适用于训练机器学习模型,用于以下任务:
- 复杂问答
- 对话理解
- 代码生成和理解
- 医学文本理解和问答
- 数学推理
- 逻辑推理和指令遵循
已知限制
由于专注于技术和专业领域,数据集可能需要模型具有大量领域特定知识,这可能限制其在一般对话场景中的应用。此外,多个数据集的整合可能引入格式、标注质量和内容的不一致性,需要在预处理过程中解决。
许可信息
该数据集在 apache-2.0 许可下发布。



