five

Locutusque/hyperion-v3.0

收藏
Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/hyperion-v3.0
下载链接
链接失效反馈
官方服务:
资源简介:
Hyperion-3.0数据集是一个包含多种数据来源的集合,主要用于问答和文本生成任务。数据集包含1665372个训练样本,总大小为3210068995.811935字节,下载大小为1497036692字节。数据集的特征包括对话内容、来源和权重,支持英语语言。数据来源包括OpenOrca/SlimOrca、cognitivecomputations/dolphin、microsoft/orca-math-word-problems-200k等多个领域的数据集。

Hyperion-3.0数据集是一个包含多种数据来源的集合,主要用于问答和文本生成任务。数据集包含1665372个训练样本,总大小为3210068995.811935字节,下载大小为1497036692字节。数据集的特征包括对话内容、来源和权重,支持英语语言。数据来源包括OpenOrca/SlimOrca、cognitivecomputations/dolphin、microsoft/orca-math-word-problems-200k等多个领域的数据集。
提供机构:
Locutusque
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 语言: 英语 (en)
  • 大小类别: 1M<n<10M

数据集特征

  • features:
    • conversations:
      • from: 数据类型为字符串
      • value: 数据类型为字符串
      • weight: 数据类型为浮点数
    • source: 数据类型为字符串

数据集分割

  • splits:
    • train:
      • num_bytes: 3210068995.811935 字节
      • num_examples: 1665372 个示例

数据集大小与下载大小

  • download_size: 1497036692 字节
  • dataset_size: 3210068995.811935 字节

任务类别

  • question-answering
  • text-generation

配置

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作