Locutusque/hercules-v2.0
收藏数据集概述
基本信息
- 数据集名称: Hercules-v2.0
- 版本: 2.0
- 发布日期: 2024年2月2日
- 大小: 1,307,174条数据
- 许可证: Apache-2.0
数据来源
Hercules-v2.0是从OpenHermes-2.5衍生出来的增强型指令数据集,旨在提高其多样性和范围。该数据集融合了来自多个数据源的贡献,特别强调生物学、物理学、医学、数学、计算机科学、指令遵循、函数调用和角色扮演等领域。数据来源包括:
- cognitivecomputations/dolphin(前20万条数据)
- Evol Instruct 70K && 140K
- teknium/GPT4-LLM-Cleaned
- jondurbin/airoboros-3.2
- AlekseyKorshuk/camel-chatml
- CollectiveCognition/chats-data-2023-09-22
- Nebulous/lmsys-chat-1m-smortmodelsonly
- glaiveai/glaive-code-assistant-v2
- glaiveai/glaive-code-assistant
- glaiveai/glaive-function-calling-v2
- garage-bAInd/Open-Platypus
- meta-math/MetaMathQA(前4万条数据)
- teknium/GPTeacher-General-Instruct
- GPTeacher角色扮演数据集
- BI55/MedText
- pubmed_qa标记子集
- Unnatural Instructions
- CollectiveCognition/chats-data-2023-09-27
- CollectiveCognition/chats-data-2023-10-16
数据格式
数据集包含JSON格式的条目,具有独特的结构以包含函数调用示例。每个条目由一系列交互组成,每个交互标记为“from”以指示说话者(人类、函数调用、函数响应或gpt)和“value”以呈现交互的内容或有效负载。例如: json [ { "from": "human", "value": "Hi, I need to convert a temperature from Celsius to Fahrenheit. The temperature is 30 degrees Celsius." }, { "from": "function-call", "value": "{"name": "convert_temperature", "arguments": {"temperature": 30, "from_unit": "Celsius", "to_unit": "Fahrenheit"}}" }, { "from": "function-response", "value": "{"converted_temperature": 86}" }, { "from": "gpt", "value": "The converted temperature from 30 degrees Celsius to Fahrenheit is 86 degrees Fahrenheit." } ]
使用场景
Hercules-v2.0数据集旨在用于训练和评估AI系统在遵循指令、执行函数调用以及在各种科学和技术学科中进行角色扮演场景的能力。研究人员和开发人员可以利用此数据集进行以下工作:
- 增强语言模型对复杂主题的理解。
- 提高会话代理中函数调用执行的准确性。
- 开发能够参与教育和信息性对话的模型。
- 在遵循复杂指令和提供准确响应的能力方面对系统进行基准测试。
引用
使用Hercules-v2.0的研究人员应按以下方式引用数据集:
@misc{sebastian_gabarain_2024, title = {Hercules-v2.0: An Instruction Dataset for Specialized Domains}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, doi = {10.57967/hf/1744} url = {https://huggingface.co/datasets/Locutusque/hercules-v2.0} }
版本历史
- v2.0: 当前版本,具有增强的多样性和范围。
- v1.0: 初始版本。



