five

Locutusque/hercules-v5.0

收藏
Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hercules-v5.0
下载链接
链接失效反馈
官方服务:
资源简介:
Hercules-v5.0是一个广泛且多样化的数据集,结合了多个领域的数据,旨在为训练人工智能模型提供强大的工具。数据来源包括对话、编码示例、科学解释等,涵盖了多个高质量的数据源。该数据集适用于训练和评估能够处理跨多个复杂任务的AI模型,适合学术界和工业界的研究人员和开发者使用。数据集的质量较高,但可能需要对特定任务进行额外的预处理。

Hercules-v5.0是一个广泛且多样化的数据集,结合了多个领域的数据,旨在为训练人工智能模型提供强大的工具。数据来源包括对话、编码示例、科学解释等,涵盖了多个高质量的数据源。该数据集适用于训练和评估能够处理跨多个复杂任务的AI模型,适合学术界和工业界的研究人员和开发者使用。数据集的质量较高,但可能需要对特定任务进行额外的预处理。
提供机构:
Locutusque
原始信息汇总

Hercules-v5.0 数据集概述

数据集描述

  • 名称: Hercules-v5.0
  • 类别: 文本生成、问答
  • 语言: 英语
  • 大小: 1M<n<10M

数据来源

Hercules-v5.0 是一个广泛且多样化的数据集,结合了多个领域的数据,包括对话、编程示例、科学解释等。数据来源于多个高质量的存储库,每个存储库都为 Hercules-v5.0 在不同知识领域的稳健性做出了贡献。

包含的数据源

  • OpenOrca/SlimOrca
  • Evol Instruct 70K & 140K
  • teknium/GPT4-LLM-Cleaned
  • jondurbin/airoboros-3.2
  • AlekseyKorshuk/camel-chatml
  • CollectiveCognition/chats-data-2023-09-22
  • Lmsys chat 1m GPT-4 generations only.
  • glaiveai/glaive-code-assistant
  • Locutusque/function-calling-chatml
  • garage-bAInd/Open-Platypus
  • TIGER-Lab/MATH-plus
  • GPTeacher roleplay datasets
  • BI55/MedText
  • Various medical datasets by CogStack
  • Unnatural Instructions
  • m-a-p/Code-Feedback
  • totally-not-an-llm/EverythingLM-data-V3
  • LDJnr/Capybara
  • Vezora/Tested-22k-Python-Alpaca
  • Crystalcareai/alpaca-gpt4-COT
  • CollectiveCognition/chats-data-2023-09-27
  • CollectiveCognition/chats-data-2023-10-16
  • NobodyExistsOnTheInternet/sharegptPIPPA
  • winglian/chatlogs-en-cleaned
  • winglian/deduped-ds
  • grimulkan/theory-of-mind
  • Locutusque/caseus_custom

数据特性

数据集融合了来自多个领域的文本,包括结构化和非结构化数据。它包含对话、教学文本、科学解释、编程任务等。

预期用途

Hercules-v5.0 旨在用于训练和评估能够处理多个领域复杂任务的 AI 模型。它适用于在学术界和工业界从事高级对话代理、指令遵循模型和知识密集型应用的研究人员和开发者。

数据质量

数据从信誉良好的来源收集,注重多样性和质量。预计数据相对干净,但可能需要针对特定任务进行额外的预处理。

限制和偏见

  • 数据集可能存在源自原始数据源的固有偏见。
  • 某些领域可能因源数据集的性质而过度代表。

X级内容免责声明

Hercules-v5.0 包含X级内容。用户需自行负责数据集的使用,并确保其使用符合所有适用的法律和规定。数据集维护者不对数据集的滥用负责。

使用协议

使用 Hercules-v5.0 数据集的用户同意以下条款:

  • 数据集的使用风险由用户自行承担。
  • 数据集维护者不对因使用数据集而产生的任何损害负责。
  • 用户不会因任何索赔、责任、损失或费用而追究数据集维护者的责任。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Hercules-v5.0是一个大规模、多领域的数据集,专门用于训练和评估AI模型,涵盖对话、代码、科学解释等多种任务,数据量达158万行。该数据集整合了多个高质量来源,支持复杂任务处理,但包含X级内容,使用时需注意法律合规。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作