five

Locutusque/hercules-v2.5

收藏
Hugging Face2024-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hercules-v2.5
下载链接
链接失效反馈
官方服务:
资源简介:
Hercules-v2.5是一个综合性的多领域指令数据集,旨在为自然语言理解和处理领域的机器学习模型提供训练和评估材料。该数据集特别关注复杂指令的执行和函数调用的准确性,包含问答对、对话、函数调用和角色扮演场景等多种格式。数据集来源于多个数据源,涵盖了生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。数据集主要由GPT-4生成,但也包含其他模型如Claude-1、Claude-1-instant、Claude-2、Claude-2.1和GPT-3.5-Turbo生成的内容。数据集包含有毒样本,使用时需谨慎。

Hercules-v2.5是一个综合性的多领域指令数据集,旨在为自然语言理解和处理领域的机器学习模型提供训练和评估材料。该数据集特别关注复杂指令的执行和函数调用的准确性,包含问答对、对话、函数调用和角色扮演场景等多种格式。数据集来源于多个数据源,涵盖了生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。数据集主要由GPT-4生成,但也包含其他模型如Claude-1、Claude-1-instant、Claude-2、Claude-2.1和GPT-3.5-Turbo生成的内容。数据集包含有毒样本,使用时需谨慎。
提供机构:
Locutusque
原始信息汇总

数据集概述

数据集名称: Hercules-v2.5

版本: 2.5

发布日期: 2024年2月9日

大小: 1,810,725条数据

数据来源:

  • cognitivecomputations/dolphin (前30万条示例)
  • Evol Instruct 70K && 140K
  • teknium/GPT4-LLM-Cleaned
  • jondurbin/airoboros-3.2
  • AlekseyKorshuk/camel-chatml
  • CollectiveCognition/chats-data-2023-09-22
  • Nebulous/lmsys-chat-1m-smortmodelsonly
  • glaiveai/glaive-code-assistant-v2
  • glaiveai/glaive-code-assistant
  • glaiveai/glaive-function-calling-v2
  • garage-bAInd/Open-Platypus
  • meta-math/MetaMathQA
  • teknium/GPTeacher-General-Instruct
  • GPTeacher roleplay datasets
  • BI55/MedText
  • pubmed_qa labeled subset
  • Unnatural Instructions
  • M4-ai/LDJnr_combined_inout_format
  • CollectiveCognition/chats-data-2023-09-27
  • CollectiveCognition/chats-data-2023-10-16

数据格式:

  • JSON格式
  • 每个条目包含一系列交互,每个交互标记为"from"(指示说话者,如human、function-call、function-response或gpt)和"value"(表示交互内容或有效负载)

数据集结构:

  • conversations: 包含交互列表,每个交互有fromvalue字段
  • source: 数据来源
  • __index_level_0__: 索引

数据集分割:

  • train: 包含1,810,725条数据,总字节数为3,257,199,688.0字节

下载大小: 1,488,468,818字节

数据集大小: 3,257,199,688.0字节

许可证: Apache 2.0

引用:

@misc{sebastian_gabarain_2024, title = {Hercules-v2.0: An Instruction Dataset for Specialized Domains}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, doi = {10.57967/hf/1744} url = {https://huggingface.co/datasets/Locutusque/hercules-v2.0} }

版本历史:

  • v2.5: 当前版本,修复了函数调用的疏忽
  • v2.0: 增强多样性和范围
  • v1.0: 初始发布
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作