geniacllm/CultulaX_default_filtered_ja
收藏Hugging Face2024-08-15 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/geniacllm/CultulaX_default_filtered_ja
下载链接
链接失效反馈官方服务:
资源简介:
# データについて
- 0.1Bモデル用データセットの整備 として下記を行ったものです。
- CultulaXの日本語データ前処理
- ダウンロード
- 前処理(標準コードのデフォルトフィルタのみ)
## License Information
The licence terms for CulturaX strictly follows those of `mC4` and `OSCAR`. Please refer to both below licenses when using this dataset.
- [mC4 license](https://huggingface.co/datasets/allenai/c4#license)
- [OSCAR license](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301#licensing-information)
提供机构:
geniacllm



