systemk/washi
收藏Hugging Face2024-03-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/systemk/washi
下载链接
链接失效反馈官方服务:
资源简介:
Washi数据集是从[uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX)的日语子集中采样的,使用了DSIR(数据选择通过重要性重采样)方法,选择了与csebuetnlp/xlsum和systemk/aozorabunko_chunked(来自青空文库的现代日本文学作品)最接近的文档,约占语料库的5%。数据集的主要语言是日语,许可证遵循uonlp/CulturaX的许可证。数据集的创建目的是验证在从主要面向英语的大型语言模型(LLM)进行微调时,数据质量比数量更重要的假设。
Washi数据集是从[uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX)的日语子集中采样的,使用了DSIR(数据选择通过重要性重采样)方法,选择了与csebuetnlp/xlsum和systemk/aozorabunko_chunked(来自青空文库的现代日本文学作品)最接近的文档,约占语料库的5%。数据集的主要语言是日语,许可证遵循uonlp/CulturaX的许可证。数据集的创建目的是验证在从主要面向英语的大型语言模型(LLM)进行微调时,数据质量比数量更重要的假设。
提供机构:
systemk
原始信息汇总
数据集概述
基本信息
- 语言: 日语
- 许可证: 其他
- 大小类别: 1M<n<10M
- 任务类别: 文本生成
- 数据集名称: Washi
数据集配置
配置 200k
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 5315275997
- 样本数: 200000
- 下载大小: 2841685460
- 数据集大小: 5315275997
配置 20m
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 105176099351.0
- 样本数: 20000000
- 下载大小: 60214844912
- 数据集大小: 105176099351.0
配置 400m
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 24693584215
- 样本数: 4000000
- 下载大小: 14134783813
- 数据集大小: 24693584215
配置 4m
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 24693584215
- 样本数: 4000000
- 下载大小: 14134783813
- 数据集大小: 24693584215
数据文件配置
- 配置 200k:
- 分割: train
- 路径: 200k/train-*
- 配置 20m:
- 分割: train
- 路径: 20m/train-*
- 配置 400m:
- 分割: train
- 路径: 400m/train-*
- 配置 4m:
- 分割: train
- 路径: 4m/train-*
标签
- nlp
- pretrain
- llm



