ayousanz/OSCOR-2301-ja-cleaned
收藏Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ayousanz/OSCOR-2301-ja-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
language:
- ja
tags:
- OSCAR-2301
---
# 概要
[oscar-corpus/OSCAR-2301](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)の以下のjaのみを [corpus-cleaner](https://github.com/ce-lery/corpus-cleaner)を使用してデータクリーニングを行なったデーセット群
| Code | Language | # docs | # words | Content Length : |
|:-------|:-------------------------|:--------------|:----------------|:-----------------|
| ja | Japanese | 94,236,404 | 4,401,059,165 | 181.2 GB |
ただし以下のファイルは、クリーニングが成功していないため除外しています。
```json
ja_meta_part_117.jsonl
ja_meta_part_13.jsonl
ja_meta_part_24.jsonl
ja_meta_part_4.jsonl
ja_meta_part_64.jsonl
ja_meta_part_81.jsonl
ja_meta_part_82.jsonl
```
提供机构:
ayousanz
原始信息汇总
数据集概述
基本信息
- 数据集名称: OSCAR-2301
- 语言: 日语 (ja)
- 标签: OSCAR-2301
- 许可证: CC0-1.0
数据统计
- 文档数量: 94,236,404
- 单词数量: 4,401,059,165
- 内容长度: 181.2 GB
数据处理
- 数据清洗工具: corpus-cleaner
- 未成功清洗的文件:
- ja_meta_part_117.jsonl
- ja_meta_part_13.jsonl
- ja_meta_part_24.jsonl
- ja_meta_part_4.jsonl
- ja_meta_part_64.jsonl
- ja_meta_part_81.jsonl
- ja_meta_part_82.jsonl



