systemk/washi

Name: systemk/washi
Creator: systemk
Published: 2024-03-06 03:16:54
License: 暂无描述

Hugging Face2024-03-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/systemk/washi

下载链接

链接失效反馈

官方服务：

资源简介：

Washi数据集是从[uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX)的日语子集中采样的，使用了DSIR（数据选择通过重要性重采样）方法，选择了与csebuetnlp/xlsum和systemk/aozorabunko_chunked（来自青空文库的现代日本文学作品）最接近的文档，约占语料库的5%。数据集的主要语言是日语，许可证遵循uonlp/CulturaX的许可证。数据集的创建目的是验证在从主要面向英语的大型语言模型（LLM）进行微调时，数据质量比数量更重要的假设。

提供机构：

systemk

原始信息汇总

数据集概述

基本信息

语言: 日语
许可证: 其他
大小类别: 1M<n<10M
任务类别: 文本生成
数据集名称: Washi

数据集配置

配置 200k

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 5315275997
- 样本数: 200000
下载大小: 2841685460
数据集大小: 5315275997

配置 20m

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 105176099351.0
- 样本数: 20000000
下载大小: 60214844912
数据集大小: 105176099351.0

配置 400m

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 24693584215
- 样本数: 4000000
下载大小: 14134783813
数据集大小: 24693584215

配置 4m

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 24693584215
- 样本数: 4000000
下载大小: 14134783813
数据集大小: 24693584215

数据文件配置

配置 200k:
- 分割: train
- 路径: 200k/train-*
配置 20m:
- 分割: train
- 路径: 20m/train-*
配置 400m:
- 分割: train
- 路径: 400m/train-*
配置 4m:
- 分割: train
- 路径: 4m/train-*