five

Locutusque/hercules-v2.0

收藏
Hugging Face2024-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hercules-v2.0
下载链接
链接失效反馈
官方服务:
资源简介:
Hercules-v2.0是一个旨在为高级机器学习模型的开发和评估提供全面、多方面训练材料的数据集,特别是在自然语言理解和处理方面。它包含多种格式,如问答对、对话、函数调用和角色扮演场景,适用于处理复杂指令和执行函数调用。数据集来源于多个数据源,强调生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。

Hercules-v2.0是一个旨在为高级机器学习模型的开发和评估提供全面、多方面训练材料的数据集,特别是在自然语言理解和处理方面。它包含多种格式,如问答对、对话、函数调用和角色扮演场景,适用于处理复杂指令和执行函数调用。数据集来源于多个数据源,强调生物学、物理学、医学、数学、计算机科学、指令跟随、函数调用和角色扮演等领域。
提供机构:
Locutusque
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Hercules-v2.0
  • 版本: 2.0
  • 发布日期: 2024年2月2日
  • 大小: 1,307,174条数据
  • 许可证: Apache-2.0

数据来源

Hercules-v2.0是从OpenHermes-2.5衍生出来的增强型指令数据集,旨在提高其多样性和范围。该数据集融合了来自多个数据源的贡献,特别强调生物学、物理学、医学、数学、计算机科学、指令遵循、函数调用和角色扮演等领域。数据来源包括:

  • cognitivecomputations/dolphin(前20万条数据)
  • Evol Instruct 70K && 140K
  • teknium/GPT4-LLM-Cleaned
  • jondurbin/airoboros-3.2
  • AlekseyKorshuk/camel-chatml
  • CollectiveCognition/chats-data-2023-09-22
  • Nebulous/lmsys-chat-1m-smortmodelsonly
  • glaiveai/glaive-code-assistant-v2
  • glaiveai/glaive-code-assistant
  • glaiveai/glaive-function-calling-v2
  • garage-bAInd/Open-Platypus
  • meta-math/MetaMathQA(前4万条数据)
  • teknium/GPTeacher-General-Instruct
  • GPTeacher角色扮演数据集
  • BI55/MedText
  • pubmed_qa标记子集
  • Unnatural Instructions
  • CollectiveCognition/chats-data-2023-09-27
  • CollectiveCognition/chats-data-2023-10-16

数据格式

数据集包含JSON格式的条目,具有独特的结构以包含函数调用示例。每个条目由一系列交互组成,每个交互标记为“from”以指示说话者(人类、函数调用、函数响应或gpt)和“value”以呈现交互的内容或有效负载。例如: json [ { "from": "human", "value": "Hi, I need to convert a temperature from Celsius to Fahrenheit. The temperature is 30 degrees Celsius." }, { "from": "function-call", "value": "{"name": "convert_temperature", "arguments": {"temperature": 30, "from_unit": "Celsius", "to_unit": "Fahrenheit"}}" }, { "from": "function-response", "value": "{"converted_temperature": 86}" }, { "from": "gpt", "value": "The converted temperature from 30 degrees Celsius to Fahrenheit is 86 degrees Fahrenheit." } ]

使用场景

Hercules-v2.0数据集旨在用于训练和评估AI系统在遵循指令、执行函数调用以及在各种科学和技术学科中进行角色扮演场景的能力。研究人员和开发人员可以利用此数据集进行以下工作:

  • 增强语言模型对复杂主题的理解。
  • 提高会话代理中函数调用执行的准确性。
  • 开发能够参与教育和信息性对话的模型。
  • 在遵循复杂指令和提供准确响应的能力方面对系统进行基准测试。

引用

使用Hercules-v2.0的研究人员应按以下方式引用数据集:

@misc{sebastian_gabarain_2024, title = {Hercules-v2.0: An Instruction Dataset for Specialized Domains}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, doi = {10.57967/hf/1744} url = {https://huggingface.co/datasets/Locutusque/hercules-v2.0} }

版本历史

  • v2.0: 当前版本,具有增强的多样性和范围。
  • v1.0: 初始版本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作