Locutusque/hercules-v2.5
收藏Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hercules-v2.5
下载链接
链接失效反馈官方服务:
资源简介:
Hercules-v2.5是一个综合性的多领域指令数据集,旨在为自然语言理解和处理领域的机器学习模型提供训练和评估材料。该数据集特别关注复杂指令的执行和函数调用的准确性,包含问答对、对话、函数调用和角色扮演场景等多种格式。数据集来源于多个数据源,涵盖了生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。数据集主要由GPT-4生成,但也包含其他模型如Claude-1、Claude-1-instant、Claude-2、Claude-2.1和GPT-3.5-Turbo生成的内容。数据集包含有毒样本,使用时需谨慎。
Hercules-v2.5是一个综合性的多领域指令数据集,旨在为自然语言理解和处理领域的机器学习模型提供训练和评估材料。该数据集特别关注复杂指令的执行和函数调用的准确性,包含问答对、对话、函数调用和角色扮演场景等多种格式。数据集来源于多个数据源,涵盖了生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。数据集主要由GPT-4生成,但也包含其他模型如Claude-1、Claude-1-instant、Claude-2、Claude-2.1和GPT-3.5-Turbo生成的内容。数据集包含有毒样本,使用时需谨慎。
提供机构:
Locutusque
原始信息汇总
数据集概述
数据集名称: Hercules-v2.5
版本: 2.5
发布日期: 2024年2月9日
大小: 1,810,725条数据
数据来源:
- cognitivecomputations/dolphin (前30万条示例)
- Evol Instruct 70K && 140K
- teknium/GPT4-LLM-Cleaned
- jondurbin/airoboros-3.2
- AlekseyKorshuk/camel-chatml
- CollectiveCognition/chats-data-2023-09-22
- Nebulous/lmsys-chat-1m-smortmodelsonly
- glaiveai/glaive-code-assistant-v2
- glaiveai/glaive-code-assistant
- glaiveai/glaive-function-calling-v2
- garage-bAInd/Open-Platypus
- meta-math/MetaMathQA
- teknium/GPTeacher-General-Instruct
- GPTeacher roleplay datasets
- BI55/MedText
- pubmed_qa labeled subset
- Unnatural Instructions
- M4-ai/LDJnr_combined_inout_format
- CollectiveCognition/chats-data-2023-09-27
- CollectiveCognition/chats-data-2023-10-16
数据格式:
- JSON格式
- 每个条目包含一系列交互,每个交互标记为"from"(指示说话者,如human、function-call、function-response或gpt)和"value"(表示交互内容或有效负载)
数据集结构:
conversations: 包含交互列表,每个交互有from和value字段source: 数据来源__index_level_0__: 索引
数据集分割:
train: 包含1,810,725条数据,总字节数为3,257,199,688.0字节
下载大小: 1,488,468,818字节
数据集大小: 3,257,199,688.0字节
许可证: Apache 2.0
引用:
@misc{sebastian_gabarain_2024, title = {Hercules-v2.0: An Instruction Dataset for Specialized Domains}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, doi = {10.57967/hf/1744} url = {https://huggingface.co/datasets/Locutusque/hercules-v2.0} }
版本历史:
- v2.5: 当前版本,修复了函数调用的疏忽
- v2.0: 增强多样性和范围
- v1.0: 初始发布



