five

HachiML/Hachi-Alpaca

收藏
Hugging Face2024-05-20 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HachiML/Hachi-Alpaca
下载链接
链接失效反馈
官方服务:
资源简介:
Hachi-Alpaca是一个通过Stanford Alpaca的方法和mistralai/Mixtral-8x22B-Instruct-v0.1模型生成的日语合成数据集,主要用于文本生成任务。数据集包含多个版本,其中带有_cleaned标签的版本经过了额外的清理和精查。数据集的特征包括指令、输入、输出、平均相似度评分、相似指令列表等。数据集的大小类别为10K到100K之间,许可证为Apache 2.0。

Hachi-Alpaca是一个通过Stanford Alpaca的方法和mistralai/Mixtral-8x22B-Instruct-v0.1模型生成的日语合成数据集,主要用于文本生成任务。数据集包含多个版本,其中带有_cleaned标签的版本经过了额外的清理和精查。数据集的特征包括指令、输入、输出、平均相似度评分、相似指令列表等。数据集的大小类别为10K到100K之间,许可证为Apache 2.0。
提供机构:
HachiML
原始信息汇总

数据集概述

基本信息

  • 语言: 日语
  • 许可证: Apache 2.0
  • 大小: 10K<n<100K
  • 任务类型: 文本生成

数据集特征

  • No.: 整数类型
  • instruction: 字符串类型
  • input: 字符串类型
  • output: 字符串类型
  • avg_similarity_score: 浮点数类型
  • similar_instructions: 列表类型,包含字符串类型的instruction和浮点数类型的similarity
  • index: 整数类型
  • clean: 字符串类型

数据集分割

  • v1.0_cleaned: 28861个样本,42859272字节
  • _archive_v1.0: 30704个样本,45296989字节
  • _archive_v0.9_cleaned: 28352个样本,41730478字节
  • _archive_v0.9: 28910个样本,42547594字节
  • _archive_v0.8_cleaned: 24606个样本,36047375字节
  • _archive_v0.8: 25046个样本,36696593字节
  • _archive_v0.7_cleaned: 21592个样本,31553581字节
  • _archive_v0.7: 22055个样本,32222791字节
  • _archive_v0.6_cleaned: 18333个样本,26625999字节
  • _archive_v0.6: 18966个样本,27522385字节
  • _archive_v0.5_cleaned: 12725个样本,18365548字节
  • _archive_v0.5: 16512个样本,23717980字节
  • _archive_v0.4_cleaned: 12725个样本,18365548字节
  • _archive_v0.4: 15010个样本,21537306字节
  • _archive_v0.3_cleaned: 8664个样本,12381103字节
  • _archive_v0.3: 10123个样本,14362473字节
  • _archive_v0.2_cleaned: 3488个样本,4857174字节
  • _archive_v0.1: 1002个样本,1360481字节
  • _archive_v0.2: 4003个样本,5532897字节

数据集大小

  • 下载大小: 158159567字节
  • 数据集大小: 483583567字节

数据集配置

  • 默认配置: 包含多个分割的数据文件路径配置

标签

  • 类型: 合成数据、自我指导

以上信息概述了Hachi-Alpaca数据集的基本特征、结构和使用细节。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作