Locutusque/Hercules-v3.0
收藏Hugging Face2024-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/Hercules-v3.0
下载链接
链接失效反馈官方服务:
资源简介:
Hercules-v3.0是一个广泛且多样化的数据集,结合了多个领域,旨在为训练人工智能模型提供强大的工具。数据来源包括对话、编码示例、科学解释等,来自多个高质量的资源库,每个资源库都在不同知识领域中增强了Hercules-v3.0的鲁棒性。数据集适用于训练和评估能够处理复杂任务的AI模型,适合学术界和工业界的研究人员和开发者使用,用于开发先进的对话代理、指令跟随模型和知识密集型应用。
Hercules-v3.0是一个广泛且多样化的数据集,结合了多个领域,旨在为训练人工智能模型提供强大的工具。数据来源包括对话、编码示例、科学解释等,来自多个高质量的资源库,每个资源库都在不同知识领域中增强了Hercules-v3.0的鲁棒性。数据集适用于训练和评估能够处理复杂任务的AI模型,适合学术界和工业界的研究人员和开发者使用,用于开发先进的对话代理、指令跟随模型和知识密集型应用。
提供机构:
Locutusque
原始信息汇总
Hercules-v3.0 数据集概述
基本信息
- 数据集名称: Hercules-v3.0
- 版本: 3.0
- 发布日期: 2024-2-14
- 示例数量: 1,637,895
- 领域: 数学、科学、生物学、物理学、指令遵循、对话、计算机科学、角色扮演等
- 语言: 主要为英语,但也包含其他语言
- 任务类型: 问答、对话建模、指令遵循、代码生成、角色扮演
数据来源描述
Hercules-v3.0 是一个广泛且多样化的数据集,结合了多个领域,旨在为训练人工智能模型提供强大的工具。数据来源包括对话、编码示例、科学解释等,来自多个高质量仓库,每个仓库都为 Hercules-v3.0 在不同知识领域的鲁棒性做出了贡献。
包含的数据来源
cognitivecomputations/dolphinEvol Instruct 70K & 140Kteknium/GPT4-LLM-Cleanedjondurbin/airoboros-3.2AlekseyKorshuk/camel-chatmlCollectiveCognition/chats-data-2023-09-22Nebulous/lmsys-chat-1m-smortmodelsonlyglaiveai/glaive-code-assistant-v2glaiveai/glaive-code-assistantglaiveai/glaive-function-calling-v2garage-bAInd/Open-Platypusmeta-math/MetaMathQAteknium/GPTeacher-General-InstructGPTeacher roleplay datasetsBI55/MedTextpubmed_qa labeled subsetUnnatural InstructionsM4-ai/LDJnr_combined_inout_formatCollectiveCognition/chats-data-2023-09-27CollectiveCognition/chats-data-2023-10-16NobodyExistsOnTheInternet/sharegptPIPPAyuekai/openchat_sharegpt_v3_vicuna_formatise-uiuc/Magicoder-Evol-Instruct-110KSquish42/bluemoon-fandom-1-1-rp-cleanedsablo/oasst2_curated
数据特征
该数据集融合了来自多个领域的文本,包括结构化和非结构化数据。它包含对话、教学文本、科学解释、编码任务等。
预期用途
Hercules-v3.0 旨在用于训练和评估能够处理跨多个领域复杂任务的 AI 模型。它适用于学术界和工业界的研究人员和开发者,致力于开发高级对话代理、指令遵循模型和知识密集型应用。
数据质量
数据从信誉良好的来源收集,注重多样性和质量。预计数据相对干净,但特定任务可能需要额外预处理。
限制与偏见
- 数据集可能存在来自原始数据源的固有偏见。
- 某些领域可能因源数据集的性质而过度代表。
成人内容声明
Hercules-v3.0 包含成人内容。用户需自行负责数据集的使用,并确保其使用符合所有适用的法律法规。数据集维护者不对数据集的滥用负责。
使用协议
使用 Hercules-v3.0 数据集的用户同意以下条款:
- 数据集使用风险由用户自行承担。
- 数据集维护者不对因使用数据集而产生的任何损害负责。
- 用户不会因任何索赔、责任、损失或费用而追究数据集维护者的责任。
请确保阅读许可证以获取更多信息。
引用
@misc{sebastian_gabarain_2024, title = {Hercules-v3.0: The "Golden Ratio" for High Quality Instruction Datasets}, author = {Sebastian Gabarain}, publisher = {HuggingFace}, year = {2024}, url = {https://huggingface.co/datasets/Locutusque/Hercules-v3.0} }



