Locutusque/hercules-v2.5

Name: Locutusque/hercules-v2.5
Creator: Locutusque
Published: 2024-02-10 00:33:48
License: 暂无描述

Hugging Face2024-02-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Locutusque/hercules-v2.5

下载链接

链接失效反馈

官方服务：

资源简介：

Hercules-v2.5是一个综合性的多领域指令数据集，旨在为自然语言理解和处理领域的机器学习模型提供训练和评估材料。该数据集特别关注复杂指令的执行和函数调用的准确性，包含问答对、对话、函数调用和角色扮演场景等多种格式。数据集来源于多个数据源，涵盖了生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。数据集主要由GPT-4生成，但也包含其他模型如Claude-1、Claude-1-instant、Claude-2、Claude-2.1和GPT-3.5-Turbo生成的内容。数据集包含有毒样本，使用时需谨慎。

提供机构：

Locutusque

原始信息汇总

数据集概述

数据集名称： Hercules-v2.5

版本： 2.5

发布日期： 2024年2月9日

大小： 1,810,725条数据

数据来源：

cognitivecomputations/dolphin (前30万条示例)
Evol Instruct 70K && 140K
teknium/GPT4-LLM-Cleaned
jondurbin/airoboros-3.2
AlekseyKorshuk/camel-chatml
CollectiveCognition/chats-data-2023-09-22
Nebulous/lmsys-chat-1m-smortmodelsonly
glaiveai/glaive-code-assistant-v2
glaiveai/glaive-code-assistant
glaiveai/glaive-function-calling-v2
garage-bAInd/Open-Platypus
meta-math/MetaMathQA
teknium/GPTeacher-General-Instruct
GPTeacher roleplay datasets
BI55/MedText
pubmed_qa labeled subset
Unnatural Instructions
M4-ai/LDJnr_combined_inout_format
CollectiveCognition/chats-data-2023-09-27
CollectiveCognition/chats-data-2023-10-16

数据格式：

JSON格式
每个条目包含一系列交互，每个交互标记为"from"（指示说话者，如human、function-call、function-response或gpt）和"value"（表示交互内容或有效负载）

数据集结构：

conversations: 包含交互列表，每个交互有from和value字段
source: 数据来源
__index_level_0__: 索引

数据集分割：

train: 包含1,810,725条数据，总字节数为3,257,199,688.0字节

下载大小： 1,488,468,818字节

数据集大小： 3,257,199,688.0字节

许可证： Apache 2.0

引用：

@misc{sebastian_gabarain_2024, title = {Hercules-v2.0: An Instruction Dataset for Specialized Domains}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, doi = {10.57967/hf/1744} url = {https://huggingface.co/datasets/Locutusque/hercules-v2.0} }

版本历史：

v2.5: 当前版本，修复了函数调用的疏忽
v2.0: 增强多样性和范围
v1.0: 初始发布

5,000+

优质数据集

54 个

任务类型

进入经典数据集