HachiML/Hachi-Alpaca
收藏Hugging Face2024-05-20 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/HachiML/Hachi-Alpaca
下载链接
链接失效反馈官方服务:
资源简介:
Hachi-Alpaca是一个通过Stanford Alpaca的方法和mistralai/Mixtral-8x22B-Instruct-v0.1模型生成的日语合成数据集,主要用于文本生成任务。数据集包含多个版本,其中带有_cleaned标签的版本经过了额外的清理和精查。数据集的特征包括指令、输入、输出、平均相似度评分、相似指令列表等。数据集的大小类别为10K到100K之间,许可证为Apache 2.0。
Hachi-Alpaca是一个通过Stanford Alpaca的方法和mistralai/Mixtral-8x22B-Instruct-v0.1模型生成的日语合成数据集,主要用于文本生成任务。数据集包含多个版本,其中带有_cleaned标签的版本经过了额外的清理和精查。数据集的特征包括指令、输入、输出、平均相似度评分、相似指令列表等。数据集的大小类别为10K到100K之间,许可证为Apache 2.0。
提供机构:
HachiML
原始信息汇总
数据集概述
基本信息
- 语言: 日语
- 许可证: Apache 2.0
- 大小: 10K<n<100K
- 任务类型: 文本生成
数据集特征
- No.: 整数类型
- instruction: 字符串类型
- input: 字符串类型
- output: 字符串类型
- avg_similarity_score: 浮点数类型
- similar_instructions: 列表类型,包含字符串类型的
instruction和浮点数类型的similarity - index: 整数类型
- clean: 字符串类型
数据集分割
- v1.0_cleaned: 28861个样本,42859272字节
- _archive_v1.0: 30704个样本,45296989字节
- _archive_v0.9_cleaned: 28352个样本,41730478字节
- _archive_v0.9: 28910个样本,42547594字节
- _archive_v0.8_cleaned: 24606个样本,36047375字节
- _archive_v0.8: 25046个样本,36696593字节
- _archive_v0.7_cleaned: 21592个样本,31553581字节
- _archive_v0.7: 22055个样本,32222791字节
- _archive_v0.6_cleaned: 18333个样本,26625999字节
- _archive_v0.6: 18966个样本,27522385字节
- _archive_v0.5_cleaned: 12725个样本,18365548字节
- _archive_v0.5: 16512个样本,23717980字节
- _archive_v0.4_cleaned: 12725个样本,18365548字节
- _archive_v0.4: 15010个样本,21537306字节
- _archive_v0.3_cleaned: 8664个样本,12381103字节
- _archive_v0.3: 10123个样本,14362473字节
- _archive_v0.2_cleaned: 3488个样本,4857174字节
- _archive_v0.1: 1002个样本,1360481字节
- _archive_v0.2: 4003个样本,5532897字节
数据集大小
- 下载大小: 158159567字节
- 数据集大小: 483583567字节
数据集配置
- 默认配置: 包含多个分割的数据文件路径配置
标签
- 类型: 合成数据、自我指导
以上信息概述了Hachi-Alpaca数据集的基本特征、结构和使用细节。



